語音特徵提取—mfcc(理論篇)
(1)預加重、分幀以及加窗
語音識別中特徵提取過程首先進行預加重、分幀以及加窗操作,其具體理論如下:
1.1 預加重
語音頻號的預加重,目的是為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻解析度,其定義如下:
一階fir高通數字濾波器來實現預加重,其中a為預加重係數,0.91.2 分幀
1.3 加窗
(2)傅利葉變換
語音中傅利葉變換主要是將時域語音頻號轉化到頻率中,其理論部分可以參考:
(3)mel濾波
首先給出mel濾波理論部分,主要是將經過fft後的語音資料點通過mel濾波器組進而可以達到更好的效果,其定義如下:
先將頻率域f轉移至mel域,再對mel域進行語音頻號處理,最後與語音功率進行乘積累加得到一幀語音經過mel濾波結果,其中mel濾波器組定義如下:
筆者為進一步闡述上述理論,對fft於mel域訊號進行進一步闡述,並給出了具體推導方法:
大家不要把mel濾波器組想的很多是,實際上就是乙個分段函式,對fft後語音頻號提取其中h值,最後與對應fft訊號的功率譜進行乘積,最後累加得到。
(4)dct變換
所謂dct即是對經過mel濾波器組的語音頻號進行再變化,上式為具體計算流程。
至此,語音特徵—mfcc 理論推導完畢!
MFCC(語音特徵引數)
一 mfcc計算總體流程 1.訊號的預處理,包括預加重 preemphasis 分幀 frame blocking 加窗 windowing 假設語音頻號的取樣頻率fs 8khz.由於語音頻號在10 30ms認為是穩定的,則可設定幀長為80 240點。幀移可以設定為幀長的1 2.2.對每一幀進行ff...
語音特徵引數MFCC
一 mfcc概述 在語音識別 speech recognition 和話者識別 speaker recognition 方面,最常用到的語音特徵就是梅爾倒譜係數 mel scale frequency cepstral coefficients,簡稱mfcc 根據人耳聽覺機理的研究發現,人耳對不同頻...
語音特徵引數MFCC計算過程
語音頻號為從聲道輸入的速度波 輸入訊號 與聲道形狀 系統 卷積得到的聲壓波。語音頻號的特徵引數的提取正是對語音頻號進行時域和頻域的處理分離出聲道形狀 系統 的過程。聲道形狀 系統 也正是無論任何語音頻號,只要每個字母或數字相同 它的發音就相同 它就在一定程度上相同的特徵參量 頻域共振峰 的頂點 的包...