理解 MFCC梅爾倒譜係數

2021-08-13 20:20:45 字數 1758 閱讀 4890

mfcc梅爾倒譜係數是說話人識別、語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。

整個流程如下:

時域的波形圖如下

圖1. 時域波形圖

第一步

獲得語譜圖,語譜圖是乙個非常有力的工具,因為人耳就是進行的頻率分析。

圖2. 語譜圖

第二步

經過梅爾濾波器組。為什麼要經過梅爾濾波器組?答:上面的圖需要降維。根據生理學的發現,上面的語譜圖實際上可以用經過一系列的梅爾濾波器組來進行降維。

圖3. 梅爾濾波器組

濾波後的影象如下,假如一共有24個濾波器組,那麼在下圖在縱向上就降成了24維。

圖4. 經過梅爾濾波器組後的頻譜圖

第三步

取對數。為什麼要取對數?解答如下。

人類的發聲系統發出的訊號是由基音資訊與聲道資訊卷積而成。記作"s卷積v"

經過語譜圖fft變換後,卷積變成了乘法。即"fft(s)*fft(v)"。

取對數後,乘法變成了加法。即"log(fft(s))+log(fft(v))"

把卷積訊號轉換成加性訊號,這就是取fft和對數的原因。

圖5. 取對數後

第四步

dct(離散余弦變換)

在上一步中,我們成功地把基音資訊與聲道資訊變成了加性的。那麼如何分離呢?它們有如下性質:

頻譜圖中(注意是一幀fft變換內)

(1)基音資訊在頻域是快速變化的。

(2)聲道資訊在頻域是緩慢變化的。

因此再做一次dct可以將其分離。我們稱之為"倒譜域"。因此倒譜域的低頻部分刻畫了聲道資訊,高頻部分刻畫了基音資訊。為什麼是dct而不是fft?因為dct變換之後的值仍為實數,因此更方便。

圖6. dct變換後

第五步

對dct變換後的譜圖進行降維。

(1)去掉第0維,因為第0維只是圖5的均值,並不包含任何資訊。

(2)去掉13-24維,因為dct本身就是用來去相關的,而圖5沒有太高頻的成分,因此可以去掉。

圖7. 降維後的mfcc譜圖

圖7就是最終的mfcc特徵了!小結

1. mfcc特徵適用於說話人分類、語音識別,並且已經有了較好的識別結果。

2. 雖然mfcc是個不錯的特徵,但是同時也丟掉了很多細節(圖2至圖4的過程),因此並不是非常完美。

參考資料

(cmu的ppt,寫的非常詳細,我看過這個之後才真正理解)

MFCC梅爾倒譜係數

mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...

梅爾頻率倒譜係數(MFCC)理論整理

主要圖形 時域圖 頻譜圖 語譜圖 基礎參考部落格 主要知識要點 stft 短時傅利葉變換 梅爾頻譜 mel bank features 與梅爾倒譜 mfccs 傅利葉變換數學理論的擴充套件閱讀 提取mfcc特徵的過程 1 2 為了將時域圖變為頻譜圖 1 先對語音進行預加重 分幀和加窗 語音的預加重 ...

語音頻號處理 梅爾倒頻譜係數MFCC

一句話概括 將時域的語音變為頻域的,對頻域的訊號進行分段濾波,得出不同頻率段的佔比 比如分為26段 所得到的佔比係數組成的矩陣,就是梅爾倒頻譜係數mfcc 作用人之所以能夠通過人聲辨別說話人的身份,是因為每個人的聲道不同,而這個聲道就相當於收集聲音的器物。我們需要提出乙個資料表示方式來代表每個人特定...