語音特徵引數MFCC計算過程

2022-08-01 22:21:10 字數 2322 閱讀 6256

語音頻號為從聲道輸入的速度波(輸入訊號),與聲道形狀(系統)卷積得到的聲壓波。語音頻號的特徵引數的提取正是對語音頻號進行時域和頻域的處理分離出聲道形狀(系統)的過程。聲道形狀(系統)也正是無論任何語音頻號,只要每個字母或數字相同(它的發音就相同),它就在一定程度上相同的特徵參量(頻域共振峰(**的頂點)的包絡)。

過程稱為倒譜分析:(頻域時對訊號進行取對數處理)時域:卷積性;->fft頻域:乘積性->梅爾濾波器組->頻域取對數:乘積性—>加性;頻率域幅度取對數->取逆變換(傅利葉變換),經低通濾波器取出包絡可分離出系統,取出其中2到13個參量(一般)作為特徵向量——共振峰的包絡。

見:1.訊號的預處理,包括預加重(preemphasis),分幀(frame blocking),加窗(windowing)。假設語音頻號的取樣頻率fs=8khz.由於語音頻號在10-30ms認為是穩定的,則可設定幀長為80~240點。幀移可以設定為幀長的1/2.

2.對每一幀進行fft變換,求頻譜,進而求得幅度譜

3.對幅度譜加mel濾波器組(mel濾波器組設計問題)。

4.對所有的濾波器輸出做對數運算(logarlithm),再進一步做離散余弦變換dct可得mfcc。

通訊知識之預加重與去加重.預加重(pre-emphasis):傳送端對輸入訊號高頻分量的提公升。 去加重(de-emphasis) :解調後對高頻分量的壓低。

口唇輻射:聲壓波/速度波

幀長:一幀所具有的取樣點數。幀與幀的非重疊部分稱為幀移

1.預加重:研究表明,口唇輻射在高頻段比較明顯,在低頻段影響較小,輻射引起的能量損耗正比於輻射阻抗的實部,所以輻射模型r(z)應是一階類高通濾波的形式,可以表示為:r(z) = r0(1-z^-1),它是一階後向差分。在語音合成時,再進行「去加重」處理,就可以恢復原來的語音。

主要是提高高頻解析度。

2.分幀:假設語音頻號的取樣頻率fs=8khz.由於語音頻號在10-30ms認為是穩定的。研究發現,語音頻號在短時間內頻譜特性保持平穩,即具有短時平穩特性。則可設定幀長為80~240點。幀移可以設定為幀長的1/2.(t=1/fs=0.125ms,0.125ms*80=10ms)

3.加窗:為了保持語音頻號的短時平穩性,利用窗函式來減少由截斷處理導致的gibbs效應。用的最多的三種為矩形窗、漢明窗(hamming)和漢寧窗(hanning)。

為了求其聲譜圖:將每一幀進行fft變換,然後將幅度越大的頻率點用灰度級更高的方塊表示。從座標軸往上是頻率增大的方向,色塊的灰度級代表其對應頻率的幅值。對整個語音頻號,橫軸是時間,縱軸為頻率,色塊的灰度級代表其對應頻率的幅值就構成了聲譜圖。

人類聽覺的感知只聚焦在某些特定的區域,而不是整個頻譜包絡。經實驗發現mel頻率倒譜係數符合人的聽覺特徵。在mel頻域內,人對音調的感知度為線性關係。舉例來說,如果兩段語音的mel頻率相差兩倍,則人耳聽起來兩者的音調也相差兩倍。

人耳的聽覺特性與mel頻率的增長一致。與實際頻率在1000hz以下呈現線性分布,1000hz以上呈現對數增長。在mel頻率軸上配置k個通道的三角形濾波器組,k的個數由訊號的截止頻率決定。

上式頻率變換由梅爾尺度濾波器組完成,通常為24個濾波器。頻率分布如圖:(例為6濾波器的濾波器組)

1)取對數:log x[k] = log h[k] + log e[k]。

2)進行逆變換:x[k] = h[k] + e[k]

然後取低值(即為包絡)得到mfcc係數。

2020-07-06

MFCC(語音特徵引數)

一 mfcc計算總體流程 1.訊號的預處理,包括預加重 preemphasis 分幀 frame blocking 加窗 windowing 假設語音頻號的取樣頻率fs 8khz.由於語音頻號在10 30ms認為是穩定的,則可設定幀長為80 240點。幀移可以設定為幀長的1 2.2.對每一幀進行ff...

語音特徵引數MFCC

一 mfcc概述 在語音識別 speech recognition 和話者識別 speaker recognition 方面,最常用到的語音特徵就是梅爾倒譜係數 mel scale frequency cepstral coefficients,簡稱mfcc 根據人耳聽覺機理的研究發現,人耳對不同頻...

語音特徵引數MFCC計算的詳細過程

注 老早之前就在看語音頻號處理方面的知識,每當過了很久都會忘記,由於之前對語音特徵mfcc提取的流程還是非常清楚的,但是對於一些細節以及一些原理一些的東西還是不是很明白,通過這次的總結,我終於明白的其中的技術細節以及設計方法,包括濾波器的設計,以及引數的具體意義,希望這個總結能給自己增加更多的印象,...