特徵提取(fbank)
目的:1.把每一幀波形變成乙個包含聲音資訊的多維向量;
2. 能夠符合或類似人耳的聽覺感知特性
3. 在一定程度上能夠增強語音頻號、抑制非語音頻號
fbank
fbank的總體流程可以由下圖表示,去掉(dct)。
1.語音取樣率:
語音取樣率顧名思義就是在一秒長的音訊上取樣多少個幅值點。根據取樣定理取樣率要大於取樣訊號的兩倍,才能還原原始訊號資訊。人聲訊號人聲一般在300-3400,很多音效卡取樣率都是8k。對於我們這邊的演算法取16k,
就是為了不丟失其中的高頻成分。
2.預加重:
語音頻號中高頻部分能量很小,容易被雜訊覆蓋,因此有乙個預加重的過程,目的是為了提公升高頻部分,使得訊號頻譜變得平坦,移除頻譜傾斜,來補償語音頻號受到發音系統所抑制的高頻部分。
預加重公式:
由於高頻訊號表徵的是訊號變換的速率快慢,因此訊號的高頻分量一般體現在訊號上公升或者下降沿。預加重技術就是增強上公升沿或者下降沿的幅度。不過本公式採用的是去加重技術,
保持高頻不變,減去=少低頻訊號的幅值,從公式來看,是將當前幀點減去前一幀的幅度,因此在越是陡峭的地方,當前這點被減去的越少(因為
越是陡峭,兩幀之間的幅值差越大。而比較平緩的地方基本相當減去了自身的k倍),這樣一來高頻訊號幅值被減去的很少,低頻訊號被減去的很多,高頻訊號幅值相對提公升。
關於預加重的詳細解釋以及公式推導:
3.分幀
人聲帶訊號在短時長內可以認為是平穩訊號(一般取0.025秒),短時間頻譜不會變化(這樣的訊號特性方便傅利葉變換),所以為了方便分析訊號,一般將語音頻號分成很多幀。
後續的很多處理都是針對幀來操作的。在分幀的時候為了避免窗邊對訊號的遺漏,因此在對幀做偏移的時候,幀間要有重疊(一般選擇10ms).否則,由於幀與幀連線處的訊號會
因為加窗而被弱化,這部分的資訊就丟失了。
4.加窗:
聲音頻號經過上面的分幀後,要做fft處理。但是訊號經過分幀後會有洩露(訊號做fft會被當成週期訊號處理,當你擷取的訊號首尾不相等時,是不滿足週期特性的),頻譜與
原始訊號有很大的差別。為了還原原始訊號頻譜,因此要對原始訊號加上乙個窗(實際上就是乘以乙個窗函式,使得擷取的訊號滿足傅利葉變換的條件)
關於洩露具體看:
關於窗具體看:
5.fft(快速傅利葉變換)
語音傳進來的訊號是時域訊號,混合各種頻段的訊號,為了方便神經網路學習,需要將轉成頻域訊號。然後在每一幀上做n點fft來計算頻譜,然後將每一幀的變換按軸頻率拼接在一起就是語音譜。
如下圖所示,橫軸是時間,縱軸是頻率,顏色深淺表示頻譜強度。
傅利葉變換:寫的非常好)
dft(離散傅利葉變換)
fft(快速傅利葉變換)
5.mel濾波器組
經過上面的步驟,在能量譜上應用mel濾波器組,就能提取fbank特徵。
在介紹mel濾波器組之前,先介紹一下mel刻度,這是乙個能模擬人耳接收聲音規律的刻度,人耳在接收聲音時呈現非線性狀態,對高頻的更不敏感,因此mel刻度在低頻
區分辨度較高,在高頻區分辨度較低,與頻率之間的換算關係為:
mel濾波器組就是一系列的三角形濾波器,通常有40個或80個,在中心頻率點響應值為1,在兩邊的濾波器中心點衰減到0,如下圖:
梅爾頻率倒譜係數mfcc:
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...
顏色特徵提取
顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...
顏色特徵提取
顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...