MFCC特徵提取過程中,各步驟的概念詳解

2021-08-22 13:15:29 字數 1197 閱讀 5987

在梅爾軸上,聽覺是等距離的、等差的,但聽覺軸上不是。聽覺音高是梅爾,乙個是響度,乙個是音高,一起用時是最好的聽覺特徵,mfcc只用了響度。有乙個假設是mfcc特徵的均值(mean)和標準差(std)都是一樣的。

聲門氣流波,每倍頻音下降12分貝。這是我們聲帶的特徵。經過咽腔,口腔進行共振,最後通過嘴唇發出。在唇齒之間進行唇嗆輻射時,每倍頻音增加6分貝。抵消之後是:每倍頻音下降6分貝。即:

因此我們採用預加重,對高頻提公升一下,盡量讓整個頻譜平坦一點。

在預加重公式中,傳輸函式如下:

假設我們採集到的樣本點是sp= 1,2,3,1,2,3,1,2,3。 其中,a一般取0.95-0.97之間的值,z-1就是上乙個時刻,z-2就是上上個時刻,這裡的「1」不是數值1,而是要代進去sp樣本點的值。要會用傳輸函式。

語音識別、語音處理時,通常每秒取40幀。對於16k取樣率的語音,指每秒鐘取16k個點,就是16000點。人耳是0.1秒才能感覺到語音。

每10ms處理一次,就是每跳過160點處理1幀,即每幀距離是160個點,幀的長度就是第0點開始取。第一幀開始處理,就是第0點開始取,第1次從0點開始取,第二次從160點開始取,第三次從320點開始取……每次取400個點開始分析,即第0-第399點。

因為我們要對它做傅利葉變換。傅利葉變換要求我們做頻譜分析時,訊號必須是平穩訊號,即他的統計訊號處處不變。分析視窗取多少?25ms。那麼為什麼取25ms?在25ms內人的口腔被認為是固定不動的。這就是平穩的。超過25ms就變異了。為什麼256或512?因為我們做快速傅利葉變換時,需要2的整數倍個0。加000000000…… 112個0。然後快速傅利葉變換結束後,分幀結束,後面進行加窗漢明窗。fft(快速傅利葉變換)的點,得出的點取一半,只有一半的點是有用的,8k取樣率只取一半,4k的點是有用的,其他的都是低頻段。這個地方在每次提特徵的時候設定取樣率時都要注意一下: --sample-frequency=8000 就是取樣率取8000。

為什麼要加窗?加窗會導致什麼?

加上任何窗函式都會對它的頻譜產生扭曲,因為它會洩露頻譜,洩露的頻譜主要都集中在它真正的頻率附近,旁邊的頻譜不會受到影響。

在這裡需要複習乙個高數的知識點:第一類間斷點和第二類間斷點。不再詳細提及,直接查資料就行。

前面的數值非常大,後面的數值越來越小,幾乎為0。後面的就可以拋棄掉。壓縮原理就是dct:後面的拋棄後,就得到壓縮。使用dct它有兩個好處,第乙個好處:後面的幾乎為0可以丟掉;第二個好處:加的梅爾窗有重疊,去除引數之間的相關性,提高識別效率。

模式識別中的特徵提取

模式識別中主要處理兩個關鍵問題,第一是分類器的設計,第二便是特徵提取。而且幾乎所有模式識別方面的研究都是在優化這兩個問題,要麼是造乙個更牛的分類器,要麼是找出一些表現力更高的特徵形式。然而這個問題再最近幾年變得不那麼明朗了,分類器的研究不用多說,從剛開始的k近鄰分類器,貝葉斯分類器,到曾經風靡一時的...

4 SIFT特徵提取和檢測的基本步驟

1 有4個主要步驟 尺度空間的極值檢測搜尋所有尺度空間上的影象,通過高斯微分函式來識別潛在的對尺度和選擇不變的興趣點。特徵點定位在每個候選的位置上,通過乙個擬合精細模型來確定位置尺度,關鍵點的選取依據他們的穩定程度。特徵方向賦值基於影象區域性的梯度方向,分配給每個關鍵點位置乙個或多個方向,後續的所有...

關於人臉檢測中的Haar特徵提取

關於人臉檢測中的haar特徵提取 影響adaboost人臉檢測訓練演算法速度很重要的兩方面是特徵選取和特徵計算。選取的特徵為矩特徵為haar特徵,計算的方法為積分圖。1 haar特徵 haar特徵分為三類 邊緣特徵 線性特徵 中心特徵和對角線特徵,組合成特徵模板。特徵模板內有白色和黑色兩種矩形,並定...