詳細的fbank特徵介紹見kaldi特徵提取之-fbank,可以執行其matlab**,然後結合這篇部落格fbank與mfcc 的介紹一起看
其中需要自己注意的是:
fbank只是缺少mfcc特徵提取的dct倒譜環節,其他步驟相同。
fbank的不足:fbank特徵已經很貼近人耳的響應特性,但是仍有一些不足:fbank特徵相鄰的特徵高度相關(相鄰濾波器組有重疊),因此當我們用hmm對音素建模的時候,幾乎總需要首先進行倒譜轉換,通過這樣得到mfcc特徵。
計算量:mfcc是在fbank的基礎上進行的,所以mfcc的計算量更大
特徵區分度:fbank特徵相關性較高,mfcc具有更好的判別度,所以大多數語音識別**中用的是mfcc,而不是fbank
第二篇部落格fbank與mfcc 其中dct倒譜的目的描述的比較清晰,其目的是:dct的實質是去除各維訊號之間的相關性,將訊號對映到低維空間。
離散余弦變換(discrete cosine transform,dct)是傅利葉變換的乙個變種,好處是結果是實數,沒有虛部。dct還有乙個特點是,對於一般的語音頻號,這一步的結果的前幾個係數特別大,後面的係數比較小,可以忽略。上面說了一般取40個三角形,所以dct的結果也是40個點;實際中,一般僅保留前12~20個,這就進一步壓縮了資料。
fbank與mfcc 有介紹到為什麼使用cmvn(cepstral mean and variance normalization,倒譜均值方差歸一化)
原因如下:
實際情況下,受不同麥克風及音訊通道的影響,會導致相同音素的特徵差別比較大,通過cmvn可以得到均值為0,方差為1的標準特徵。均值方差可以以一段語音為單位計算,但更好的是在乙個較大的資料及上進行計算,這樣識別效果會更加穩健。
cmvn的操作可以參考kaldi feature extraction,就是之前學的0-1標準化內容
是因為mfcc特徵提取是針對一段語音頻號進行特徵提取,忽略了語音頻號的動態連續性,所以使用差分操作。
具體的解釋可以參考mfcc**+一階、二階差分(matlab**)末尾所說的:我們都知道mfcc很好的表達了語音的特徵,但只是靜態的特徵。提取動態特徵,一般都採用一階二階差分,但一階二階差分究竟表示什麼,什麼含義:
一階差分就是離散函式中連續相鄰兩項之差;定義x(k),則y(k)=x(k+1)-x(k)就是此函式的一階差分,物理意義就是當前語音幀與前一幀之間的關係, 體現幀與幀(相鄰兩幀)之間的聯絡;在一階差分的基礎上,z(k)=y(k+1)-y(k)=x(k+2)-2*x(k+1)+x(k)為此函式的二階差分.二階差分表示的是一階差分與一階差分之間的關係。即前一階差分與後一階差分之間的關係,體現到幀上就是相鄰三幀之間的動態關係。
MFCC特徵提取
實驗目的 1 熟練運用matlab軟體進行語音頻號實驗 2 熟悉短時分析原理 mfcc的原理 3 學習運用matlab程式設計進行mfcc的提取 4 學會利用短時分析原理提取mfcc特徵序列 實驗原理 mfcc 語音識別和說話人識別中,常用的語音特徵是基於mel頻率的倒譜係數 即mfcc mfcc引...
最小特徵解析度
感光元件尺寸 感光元件水平長度 感光元件垂直高度 1 4inch 3.2mm 2.4mm 1 3inch 4.8mm 3.6mm 1 2inch 6.4mm 4.8mm 2 3inch 8.8mm 6.6mm 1inch 12.8mm 9.6mm 相機感測器大小對應表 1 wd 物距 工作距離 wo...
MFCC(語音特徵引數)
一 mfcc計算總體流程 1.訊號的預處理,包括預加重 preemphasis 分幀 frame blocking 加窗 windowing 假設語音頻號的取樣頻率fs 8khz.由於語音頻號在10 30ms認為是穩定的,則可設定幀長為80 240點。幀移可以設定為幀長的1 2.2.對每一幀進行ff...