CBHG模組 提取序列特徵

2021-09-24 05:01:56 字數 582 閱讀 1531

cbhg模組如下圖所示。

首次提出在goggle的一篇文章:tacotron: towards end-to-end speech synthesis

回到cbhg模組,該模組善於提取序列特徵。下面為模組步驟:

1.輸入序列,先經過k個1-d卷積,第k個卷積核(filter)通道為k,這些卷積核可以對當前以及上下文資訊有效建模;

2.卷積輸出被堆疊(stack)一起,沿著時間軸最大池化(maxpooling)以增加當前資訊不變性,stride取為1維持時間解析度;

3.然後輸入到幾個固定寬度的1-d卷積,將輸出增加到起始的輸入序列(參考resnet連線方式),所有的卷積都採用batch normalization;

4.輸入多層的highway 網路,用以提取更高階別的特徵;

5.最後在頂部加入雙向gru,用於提取序列的上下文特徵;

與原文中的不同是加入了batch normlization,殘差連線以及stride=1的最大池化,表現比原文更好。

特徵工程 TFIDF提取特徵

本文介紹文字處理時比較常用且有效的tfidf特徵提取方法 tf即是詞頻 term frequency 是文字資訊量統計方法之一,簡單來說就是統計此文字中每個詞的出現頻率 def computetf worddict,bow tfdict bowcount len bow for word,count...

特徵工程 特徵提取

特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...

文字特徵 特徵提取(一)

本文的內容主要來自於quora上的乙個問題,這裡簡單的做一下總結,感興趣的可檢視原帖 為了使用機器學習方法處理文字資料,需要找到適合的文字表示形式,對於傳統機器學習方法而言,常用的一種表示方法是將文件轉換為文件 詞項矩陣 document term matrix 具體就是將多篇文件轉換為資料幀 da...