耳蝸實質上相當於乙個濾波器組,耳蝸的濾波作用是在對數頻率尺度上進行的,在1000hz下,人耳的感知能力與頻率成線性關係;而在1000hz以上,人耳的感知能力與頻率不構成線性關係,而更偏向於對數關係,這就使得人耳對低頻訊號比高頻訊號更敏感。mel頻率的提出是為了方便人耳對不同頻率語音的感知特性的研究。頻率與mel頻率的轉換公式為:
mfcc在一定程度上模擬了人耳對語音的處理特點,應用了人耳聽覺感知方面的研究成果,採用這種技術語音識別系統的效能有一定提高。
mfcc引數的提取
1、 預加重處理
預加重處理其實是乙個高通濾波器,該高通濾波順的傳遞函式為:
其中的取值為0.97,該高通濾波器作用是濾去低頻,使語音頻號的高頻特性更加突現。
2、 分幀及加窗處理
由於語音頻號只在較短的時間內呈現平穩性(一般認為10-30ms),因此將語音頻號劃分為乙個乙個的短時段即一幀。同時為避免丟失語音頻號的動態資訊,相鄰幀之間要有一段重疊區域,重疊區域一段為幀長的1/2或1/3。然後再將每幀乘上窗函式,以增加每幀左端和右端的連續性。
3、 各幀訊號的fft變換
對分幀加窗後的各幀訊號進行fft變換得到各幀的頻譜。並對語音頻號的頻譜取模平方得到語音頻號的功率譜。
4、 三角濾波器係數的求取
定義若干個帶通三角濾波器(k),0<=m<=m,m為濾波器個數,其中心頻率為f(m),每個帶通三角濾波器的頻率響應為
且滿足mel(f(m))-mel(f(m-1))=mel(f(m+1))-mel(f(m))
求得濾波係數為m(i),i=1,…,p,p為濾波器階數
5、 三角濾波並進行離散余弦變換dct
c(i)即為所要求提取的特徵引數。
特徵引數提取之後,進行特徵引數的識別:
特徵引數的識別主要採用bp
神經網路演算法進行**,而在**前需要用一定數量的樣本對網路進行訓練,使網路具有聯想記憶和**能力。
網路訓練步驟如下:
(1) 網路初始化。
確定網路輸入層、隱層、輸出層數目,輸出層到隱層的連線權值wij及隱層到輸出層的連線權值wjk,同時初始化隱層閾值a和輸出層閾值b;
(2) 隱層的輸出計算。
隱層輸出式中,l為隱含層節點數;f為隱含層激勵函式,本實驗選取函式為:
(3) 輸出層輸出計算。
根據隱含層輸出h,連線權值和閾值b,計算bp神經網路**輸出o。
(4) 誤差計算。
根據網路**輸出o和期望輸出y,計算網路**誤差e.
(5) 權值更新。
根據網路**誤差e更新網路連線權值,
其中,α為學習速率。
(6) 閾值更新。
根據網路**誤差e更新網路節點閾值a,b.
(7) 判斷演算法迭代是否結束,若沒有結束,返回步驟(2)。
bp神經網路分類
用訓練好的bp神經網路分類語音特徵訊號,根據分類結果分析bp神經網路分類能力。
畢設 梅爾倒譜係數 MFCC特徵提取
一 mfcc概述 在語音識別 speechrecognition 和話者識別 speakerrecognition 方面,最常用到的語音特徵就是梅爾倒譜係數 mel scalefrequency cepstral coefficients,簡稱mfcc 一般來說,低音容易掩蔽高音,而高音掩蔽低音較困...
MFCC梅爾倒譜係數
mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...
理解 MFCC梅爾倒譜係數
mfcc梅爾倒譜係數是說話人識別 語音識別中最為常用的特徵。我曾經對這個特徵困惑了很久,包括為什麼步驟中要取對數,為什麼要最後一步要做dct等等,以下將把我的理解記錄下來,我找到的參考文獻中最有價值的要數了。是cum乙個教授做的ppt。整個流程如下 時域的波形圖如下 圖1.時域波形圖 第一步 獲得語...