cd-dnn-hmm帶來語音識別效能提公升的三大關鍵因素是:
1)使用足夠深的神經網路;
2)使用一長段的幀作為輸入;
3)直接對三因素進行建模。
1.進行比較和分析的資料集實驗:
a.必應(bing)移動語音搜尋資料集:
資料分為訓練集、開發集、測試集,避免三個集合之間重複。
語言模型:一元片語、二元片語、三元片語。
語言模型混淆度/困惑度:ppl(perplixity),度量語言模型效能。
ppl的計算公式如下:
k表示k元語法。
ppl的數值越小,表明在給定歷史詞序列的情況下產生下乙個詞序列的可能性越高,也就是語言模型越好。一般情況下,ppl的值在100左右。
識別率度量一般用句子錯誤率(ser)和詞錯誤率(wer).
重複識別錯誤的詞技術。
gmm-hmm採用了狀態聚類後的跨詞三音素模型,訓練採用的準則是最大似然(maximum likelihood,ml)、最大相互資訊(maximum mutual information,mmi)和最小因素錯誤(minimum phone error,mpe)準則。採用39維音訊特徵,即13維靜態梅爾頻率倒譜係數(mel-frequency cepstral coefficient)及其一階、二階導數。這些特徵採用倒譜均值和方差歸一化(cepstral mean and variance normalization,cmvn)演算法進行了預處理。
結果顯示:mpe>mmi>ml,語音識別效能依次衰減。
在cd-dnn-hmm中,dnn的輸入特徵是11幀(5-1-5),當前幀加前後各5幀的mfcc特徵。在預訓練及不同的迭代中選用不同的學習率。
minibatch,慣性係數的設定。這些都是超引數。
b.switchboard資料集
系統使用13維plp(頻譜線性**係數,perceptual linear prediction coefficient,包括三階差分),做滑動視窗的均值-方差歸一化,然後使用異方差線性判別分析(heteroscedastic linear discriminant analysis,hlda)降到了39維。
語言模型可由標註資料訓練。
dnn使用隨機梯度下降(sgd)及小批量(mini_batch)訓練。mini_batch=256,表示mini_batch為256幀。
2.對單音素或者三因素狀態進行建模
對三因素直接建模可以從細緻的標註中獲得益處,並且緩和過擬合。雖然增加dnn的輸出層節點數會降低幀的分類正確率,它減少了hmm中令人困惑的狀態轉移,因此降低了解碼中的二義性。
3.越深越好:
窄切深的神經網路效能優於寬且淺的神經網路。
在實際中,神經網路越深,識別率越高,訓練解碼代價越大,我們需要在詞錯誤率提公升和訓練解碼代價提公升之間做出權衡。
4.利用相鄰的語音幀:
為了在gmm系統中使用相鄰的幀,需要使用複雜的技術,如fmpe、hlda、基於區域的轉換或者tandem結構。因為gmm中使用對角的協方差矩陣,特徵各個維度之間需要是統計不相關的。dnn則是乙個鑑別性模型,無論相關或不相關特徵都可以接受。
5.預訓練:
6.訓練資料標註質量的影響:
7.調整轉移概率:
語音識別實踐 第4章 DNN
深度神經網路框架 前向神經網路fdnn 全連線神經網路fcnn 使用誤差反向傳播來進行引數訓練 訓練準則 訓練演算法 資料預處理 最常用的兩種資料預處理技術是樣本特徵歸一化和全域性特徵標準化。a.樣本特徵歸一化 如果每個樣本均值的變化與處理的問題無關,就應該將特徵均值歸零,減小特徵相對於dnn模型的...
第6課時 語音識別
學科 人工智慧 年級 四年級上 課題 第6課時 語音識別 課時數 1課時 教材分析 本課內容選自 人工智慧啟蒙 第一冊第4節 語音識別 部分的內容,本節課要求學生通過學習,初步理解語音識別的含義 簡單了解語音識別的6個過程 了解並體驗語音識別在生活中的常見應用。學情分析 學生通過前面幾節課的學習,了...
windows api第2章總結
1,windows資料型別 1.1常用型別 typedef unsigned long dword typedef int bool typedef unsigned char byte typedef unsigned short word typedef void handle typedef ...