mfcc梅爾倒譜係數是說話人識別、語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。
整個流程如下:
時域的波形圖如下
圖1. 時域波形圖
第一步
獲得語譜圖,語譜圖是乙個非常有力的工具,因為人耳就是進行的頻率分析。
圖2. 語譜圖
第二步
經過梅爾濾波器組。為什麼要經過梅爾濾波器組?答:上面的圖需要降維。根據生理學的發現,上面的語譜圖實際上可以用經過一系列的梅爾濾波器組來進行降維。
圖3. 梅爾濾波器組
濾波後的影象如下,假如一共有24個濾波器組,那麼在下圖在縱向上就降成了24維。
圖4. 經過梅爾濾波器組後的頻譜圖
第三步
取對數。為什麼要取對數?解答如下。
人類的發聲系統發出的訊號是由基音資訊與聲道資訊卷積而成。記作"s卷積v"
經過語譜圖fft變換後,卷積變成了乘法。即"fft(s)*fft(v)"。
取對數後,乘法變成了加法。即"log(fft(s))+log(fft(v))"
把卷積訊號轉換成加性訊號,這就是取fft和對數的原因。
圖5. 取對數後
第四步
dct(離散余弦變換)
在上一步中,我們成功地把基音資訊與聲道資訊變成了加性的。那麼如何分離呢?它們有如下性質:
頻譜圖中(注意是一幀fft變換內)
(1)基音資訊在頻域是快速變化的。
(2)聲道資訊在頻域是緩慢變化的。
因此再做一次dct可以將其分離。我們稱之為"倒譜域"。因此倒譜域的低頻部分刻畫了聲道資訊,高頻部分刻畫了基音資訊。為什麼是dct而不是fft?因為dct變換之後的值仍為實數,因此更方便。
圖6. dct變換後
第五步
對dct變換後的譜圖進行降維。
(1)去掉第0維,因為第0維只是圖5的均值,並不包含任何資訊。
(2)去掉13-24維,因為dct本身就是用來去相關的,而圖5沒有太高頻的成分,因此可以去掉。
圖7. 降維後的mfcc譜圖
圖7就是最終的mfcc特徵了!小結
1. mfcc特徵適用於說話人分類、語音識別,並且已經有了較好的識別結果。
2. 雖然mfcc是個不錯的特徵,但是同時也丟掉了很多細節(圖2至圖4的過程),因此並不是非常完美。
參考資料
(cmu的ppt,寫的非常詳細,我看過這個之後才真正理解)
MFCC梅爾倒譜係數
mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...
梅爾頻率倒譜係數(MFCC)理論整理
主要圖形 時域圖 頻譜圖 語譜圖 基礎參考部落格 主要知識要點 stft 短時傅利葉變換 梅爾頻譜 mel bank features 與梅爾倒譜 mfccs 傅利葉變換數學理論的擴充套件閱讀 提取mfcc特徵的過程 1 2 為了將時域圖變為頻譜圖 1 先對語音進行預加重 分幀和加窗 語音的預加重 ...
語音頻號處理 梅爾倒頻譜係數MFCC
一句話概括 將時域的語音變為頻域的,對頻域的訊號進行分段濾波,得出不同頻率段的佔比 比如分為26段 所得到的佔比係數組成的矩陣,就是梅爾倒頻譜係數mfcc 作用人之所以能夠通過人聲辨別說話人的身份,是因為每個人的聲道不同,而這個聲道就相當於收集聲音的器物。我們需要提出乙個資料表示方式來代表每個人特定...