理解 MFCC梅爾倒譜係數

mfcc梅爾倒譜係數是說話人識別、語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久，包括為什麼步驟中要取對數，為什麼要最後一步要做dct等等，以下將把我的理解記錄下來，我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。

整個流程如下：

時域的波形圖如下

圖1. 時域波形圖

第一步

獲得語譜圖，語譜圖是乙個非常有力的工具，因為人耳就是進行的頻率分析。

圖2. 語譜圖

第二步

經過梅爾濾波器組。為什麼要經過梅爾濾波器組？答：上面的圖需要降維。根據生理學的發現，上面的語譜圖實際上可以用經過一系列的梅爾濾波器組來進行降維。

圖3. 梅爾濾波器組

濾波後的影象如下，假如一共有24個濾波器組，那麼在下圖在縱向上就降成了24維。

圖4. 經過梅爾濾波器組後的頻譜圖

第三步

取對數。為什麼要取對數？解答如下。

人類的發聲系統發出的訊號是由基音資訊與聲道資訊卷積而成。記作"s卷積v"

經過語譜圖fft變換後，卷積變成了乘法。即"fft(s)*fft(v)"。

取對數後，乘法變成了加法。即"log(fft(s))+log(fft(v))"

把卷積訊號轉換成加性訊號，這就是取fft和對數的原因。

圖5. 取對數後

第四步

dct（離散余弦變換）

在上一步中，我們成功地把基音資訊與聲道資訊變成了加性的。那麼如何分離呢？它們有如下性質：

頻譜圖中（注意是一幀fft變換內）

（1）基音資訊在頻域是快速變化的。

（2）聲道資訊在頻域是緩慢變化的。

因此再做一次dct可以將其分離。我們稱之為"倒譜域"。因此倒譜域的低頻部分刻畫了聲道資訊，高頻部分刻畫了基音資訊。為什麼是dct而不是fft？因為dct變換之後的值仍為實數，因此更方便。

圖6. dct變換後

第五步

對dct變換後的譜圖進行降維。

（1）去掉第0維，因為第0維只是圖5的均值，並不包含任何資訊。

（2）去掉13-24維，因為dct本身就是用來去相關的，而圖5沒有太高頻的成分，因此可以去掉。

圖7. 降維後的mfcc譜圖

圖7就是最終的mfcc特徵了！小結

1. mfcc特徵適用於說話人分類、語音識別，並且已經有了較好的識別結果。

2. 雖然mfcc是個不錯的特徵，但是同時也丟掉了很多細節（圖2至圖4的過程），因此並不是非常完美。

參考資料

（cmu的ppt，寫的非常詳細，我看過這個之後才真正理解）

MFCC梅爾倒譜係數

mfcc梅爾倒譜係數是說話人識別語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久，包括為什麼步驟中要取對數，為什麼要最後一步要做dct等等，以下將把我的理解記錄下來，我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下時域的波形圖如下圖1.時域波形圖第一步獲得語...

梅爾頻率倒譜係數（MFCC）理論整理

主要圖形時域圖頻譜圖語譜圖基礎參考部落格主要知識要點 stft 短時傅利葉變換梅爾頻譜 mel bank features 與梅爾倒譜 mfccs 傅利葉變換數學理論的擴充套件閱讀提取mfcc特徵的過程 1 2 為了將時域圖變為頻譜圖 1 先對語音進行預加重分幀和加窗語音的預加重 ...

語音頻號處理梅爾倒頻譜係數MFCC

一句話概括將時域的語音變為頻域的，對頻域的訊號進行分段濾波，得出不同頻率段的佔比比如分為26段所得到的佔比係數組成的矩陣，就是梅爾倒頻譜係數mfcc 作用人之所以能夠通過人聲辨別說話人的身份，是因為每個人的聲道不同，而這個聲道就相當於收集聲音的器物。我們需要提出乙個資料表示方式來代表每個人特定...

理解 MFCC梅爾倒譜係數

MFCC梅爾倒譜係數

梅爾頻率倒譜係數（MFCC）理論整理

語音頻號處理 梅爾倒頻譜係數MFCC

相關推薦

語音頻號處理梅爾倒頻譜係數MFCC