主要圖形:時域圖、頻譜圖、語譜圖
基礎參考部落格:
主要知識要點:stft(短時傅利葉變換)、梅爾頻譜(mel bank features)與梅爾倒譜(mfccs)
傅利葉變換數學理論的擴充套件閱讀:
提取mfcc特徵的過程:
(1)(2) 為了將時域圖變為頻譜圖
1)先對語音進行預加重、分幀和加窗;
語音的預加重:去除口唇輻射的影響,增加語音的高頻解析度
母音能量主要集中在1khz以下,並且以6db/十倍頻的速度下降,可以使用欲加重技術增強高頻能量,這在回聲消除以及語音識別中的特徵提取(共振峰, lpc)中用到,聲道的終端是口和唇,口唇輻射對低頻影響比較小,但是對高頻段影響比較大,欲加重技術技術為了提公升高頻解析度
分幀和加窗的理解:
2)對每乙個短時分析窗,通過fft得到對應的頻譜;
3)將上面的頻譜通過mel濾波器組得到mel頻譜;
4)在mel頻譜上面進行倒譜分析(取對數,做逆變換,實際逆變換一般是通過dct離散余弦變換來實現,取dct後的第2個到第13個係數作為mfcc係數),獲得mel頻率倒譜係數mfcc,這個mfcc就是這幀語音的特徵;
MFCC梅爾倒譜係數
mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...
理解 MFCC梅爾倒譜係數
mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...
語音頻號處理 梅爾倒頻譜係數MFCC
一句話概括 將時域的語音變為頻域的,對頻域的訊號進行分段濾波,得出不同頻率段的佔比 比如分為26段 所得到的佔比係數組成的矩陣,就是梅爾倒頻譜係數mfcc 作用人之所以能夠通過人聲辨別說話人的身份,是因為每個人的聲道不同,而這個聲道就相當於收集聲音的器物。我們需要提出乙個資料表示方式來代表每個人特定...