TDNN時延神經網路

2021-06-19 08:15:49 字數 2159 閱讀 2824

近來在了解卷積神經網路(cnn),後來查到cnn是受語音頻號處理中時延神經網路(tdnn)影響而發明的。本篇的大部分內容都來自關於tdnn原始文獻的理解和整理。該文寫與2023年,在識別"b", "d", "g"三個濁音中得到98.5%的準確率,高於hmm的93.7%。是cnn的先驅。

普通神經網路識別音素

在講tdnn之前先說說一般的神經網路的是怎樣識別音素的吧。假設要識別三個子音"b", "d", "g",那麼我們可以設計這樣的神經網路:

圖1其中輸入0-12代表每一幀的特徵向量(如13維mfcc特徵)。那麼有人可能會問了,即使在同乙個因素"b"中,比如"b"包含20幀,那麼第1幀與第15幀的mfcc特徵也可能不一樣。這個模型合理嗎?事實上,"b"包含的20幀mfcc特徵雖然有可能不一樣,但變化不會太大,對於因素還是有一定區分度的,也就是說這個模型湊合湊合還能用,但效果不會非常好。gmm模型可以用這種模型來解釋。

時延神經網路(tdnn)

考慮到上述模型只用了一幀特徵,那麼如果我們考慮更多幀,那麼效果會不會好呢?

好,那麼我們設計乙個包含多幀的神經網路,如圖2我們考慮延時為2,則連續的3幀都會被考慮。其中隱含層起到特徵抽取的作用,輸入層每乙個矩形內共有13個小黑點,代表該幀的13維mfcc特徵。假設有10個隱含層,那麼連線的權重數目為3*13*10=390。

圖2為了結構緊湊顯示,我們將其重繪為圖3

圖3圖3與圖2是等價的。其中每條彩色線代表13*10=130個權重值。三條彩色線為390個權重。也有資料稱之為濾波器。

好,如果時間滾滾向前,我們不斷地對語音幀使用濾波器,我們可以得到圖4

圖4這就是延時神經網路的精髓了!其中綠色的線權值相同,紅色的線權值相同,藍色的線權值相同。相當於把濾波器延時。輸入與隱層共390個權值變數待確定。

每個隱層矩形內包含10個節點,那麼每條棕色的線包含10個權值,假設輸出層與隱層的延時為4,則接收5個隱層矩形內的資料,那麼隱層與輸出層合計權值為10*5*3=150。權值非常少!所以便於訓練。

下面就不難理解文獻上的圖了。思想與上文一樣,不過文章多用了一層隱層(多隱層有更強的特徵提取和抽象能力)

圖5介紹一下他的做法。input layer為語譜圖,黑塊為大值,灰塊為小值。輸入層縱向為經過mel濾波器的16個特徵(沒用mfcc),橫向為幀。input layer 的延時為2,對映到hidden layer 1的關係為16*3 -> 8,權值個數為384。hidden layer 1 的延時為4,對映到hidden layer 2的關係為8*5 -> 3,權值個數為120。hidden layer 2 的延時為8,對映到輸出層的關係為3*9 -> 3,權值個數為81。合計權值為384+120+81=585。輸出的三個單元分別代表"b", "d", "g"的得分。

訓練方法

(1)和傳統的反向傳播演算法一樣。

(2)tdnn有快速演算法,有興趣的讀者可以搜尋。

小結

總結tdnn的優點有以下:

(1)網路是多層的,每層對特徵有較強的抽象能力。

(2)有能力表達語音特徵在時間上的關係。

(3)具有時間不變性。

(4)學習過程中不要求對所學的標記進行精確的時間定為。

(5)通過共享權值,方便學習。

參考資料

趙力 《語音頻號處理》 chap 6.3. 6 (也是對上文的一些解釋和補充說明)

接下來讀者可以看卷積神經網路了(cnn),相信對cnn的理解會有所幫助。

博主e-mail:[email protected]

語音識別學習記錄 TDNN時延神經網路

最近了解了卷積神經網路 cnn cnn是受語音頻號處理中時延神經網路 tdnn 影響而發明的。本篇的大部分內容都來自關於tdnn原始文獻waibel a,hanazawa t,hinton g,et al.phoneme recognition using time delay neural net...

網路時延 傳送時延和傳播時延

一 時延的定義 時延是指乙個報文或分組從乙個網路的一端傳送到另乙個端所需要的時間。它包括了傳送時延,傳播時延,處理時延,排隊時延。時延 傳送時延 傳播時延 處理時延 排隊時延 一般,傳送時延與傳播時延是我們主要考慮的。對於報文長度較大的情況,傳送時延是主要矛盾 報文長度較小的情況,傳播時延是主要矛盾...

神經網路 卷積神經網路

這篇卷積神經網路是前面介紹的多層神經網路的進一步深入,它將深度學習的思想引入到了神經網路當中,通過卷積運算來由淺入深的提取影象的不同層次的特徵,而利用神經網路的訓練過程讓整個網路自動調節卷積核的引數,從而無監督的產生了最適合的分類特徵。這個概括可能有點抽象,我盡量在下面描述細緻一些,但如果要更深入了...