MFCC倒譜係數特徵提取與識別

2021-07-23 06:04:24 字數 1763 閱讀 6437

耳蝸實質上相當於乙個濾波器組,耳蝸的濾波作用是在對數頻率尺度上進行的,在1000hz下,人耳的感知能力與頻率成線性關係;而在1000hz以上,人耳的感知能力與頻率不構成線性關係,而更偏向於對數關係,這就使得人耳對低頻訊號比高頻訊號更敏感。mel頻率的提出是為了方便人耳對不同頻率語音的感知特性的研究。頻率與mel頻率的轉換公式為:

mfcc在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的研究成果,採用這種技術語音識別系統的效能有一定提高。

mfcc引數的提取

1、  預加重處理

預加重處理其實是乙個高通濾波器,該高通濾波順的傳遞函式為:

其中的取值為0.97,該高通濾波器作用是濾去低頻,使語音頻號的高頻特性更加突現。

2、  分幀及加窗處理

由於語音頻號只在較短的時間內呈現平穩性(一般認為10-30ms),因此將語音頻號劃分為乙個乙個的短時段即一幀。同時為避免丟失語音頻號的動態資訊,相鄰幀之間要有一段重疊區域,重疊區域一段為幀長的1/2或1/3。然後再將每幀乘上窗函式,以增加每幀左端和右端的連續性。

3、  各幀訊號的fft變換

對分幀加窗後的各幀訊號進行fft變換得到各幀的頻譜。並對語音頻號的頻譜取模平方得到語音頻號的功率譜。

4、  三角濾波器係數的求取

定義若干個帶通三角濾波器(k),0<=m<=m,m為濾波器個數,其中心頻率為f(m),每個帶通三角濾波器的頻率響應為

且滿足mel(f(m))-mel(f(m-1))=mel(f(m+1))-mel(f(m))

求得濾波係數為m(i),i=1,…,p,p為濾波器階數

5、  三角濾波並進行離散余弦變換dct

c(i)即為所要求提取的特徵引數。

特徵引數提取之後,進行特徵引數的識別:

特徵引數的識別主要採用bp

神經網路演算法進行**,而在**前需要用一定數量的樣本對網路進行訓練,使網路具有聯想記憶和**能力。

網路訓練步驟如下:

(1)      網路初始化。

確定網路輸入層、隱層、輸出層數目,輸出層到隱層的連線權值wij及隱層到輸出層的連線權值wjk,同時初始化隱層閾值a和輸出層閾值b;

(2)      隱層的輸出計算。

隱層輸出式中,l為隱含層節點數;f為隱含層激勵函式,本實驗選取函式為:

(3)      輸出層輸出計算。

根據隱含層輸出h,連線權值和閾值b,計算bp神經網路**輸出o。

(4)      誤差計算。

根據網路**輸出o和期望輸出y,計算網路**誤差e.

(5)      權值更新。

根據網路**誤差e更新網路連線權值,

其中,α為學習速率。

(6)      閾值更新。

根據網路**誤差e更新網路節點閾值a,b.

(7)      判斷演算法迭代是否結束,若沒有結束,返回步驟(2)。

bp神經網路分類

用訓練好的bp神經網路分類語音特徵訊號,根據分類結果分析bp神經網路分類能力。

畢設 梅爾倒譜係數 MFCC特徵提取

一 mfcc概述 在語音識別 speechrecognition 和話者識別 speakerrecognition 方面,最常用到的語音特徵就是梅爾倒譜係數 mel scalefrequency cepstral coefficients,簡稱mfcc 一般來說,低音容易掩蔽高音,而高音掩蔽低音較困...

MFCC梅爾倒譜係數

mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...

理解 MFCC梅爾倒譜係數

mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...