ASR特徵維度

2021-10-05 03:03:20 字數 599 閱讀 6554

常見特徵 功率譜、fbank、mfcc

fbank特徵的提取更多的是希望符合聲音頻號的本質,擬合人耳接收的特性。而mfcc特徵多的那一步則是受限於一些機器學習演算法。很早之前mfcc特徵和gmms-hmms方法結合是asr的主流。而當一些深度學習方法出來之後,mfcc則不一定是最優選擇,因為神經網路對高度相關的資訊不敏感,而且dct變換是線性的,會丟失語音頻號中原本的一些非線性成分。

還有一些說法是在質疑傅利葉變換的使用,因為傅利葉變換也是線性的。因此也有很多方法,設計模型直接從原始的音訊訊號中提取特徵,但這種方法會增加模型的複雜度,而且本身傅利葉變換不太容易擬合。同時傅利葉變換是在短時上應用的,可以建設訊號在這個短的時間內是靜止的,因此傅利葉變換的線性也不會造成很嚴重的問題。

結論就是:在模型對高相關的訊號不敏感時(比如神經網路),可以用fbank特徵;在模型對高相關的訊號敏感時(比如gmms-hmms),需要用mfcc特徵。從目前的趨勢來看,因為神經網路的逐步發展,fbank特徵越來越流行。

參考: asr中常用的語音特徵之fbank和mfcc(原理 + python實現)

語音識別中的特徵維度有時候看是39,有時候是43,有時候48比較亂,特意整理了下,常見的特徵維度情況,針對kaldi框架。

ASR 聲學特徵提取

方法二 深度學習特徵提取 通過取樣將連續的模擬訊號轉換為離散的數碼訊號,便於後續的數位化處理 正常的音訊一般低頻成分比高頻成分多,通過預加重提公升語音頻號的高頻部分,使頻譜光滑 1.目的 增加高頻成分,使頻譜光滑 2.方法 3.效果圖 數位化的語音頻號是乙個不平穩的時變訊號,具有短時平穩性。因此在對...

維度災難和特徵選擇

4.怎麼避免維度災難 一句話 維度是乙個數字,表徵每個樣本中特徵的數量。機器學習中,對於資料一般用n m n mn m矩陣表達,n nn表示樣本 sample 數量,m mm表示特徵 attribute feature variable 數量。如下圖,即是4 2 4 24 2的矩陣,表示有4條資料,...

ASR自動語音識別技術

自動語音識別技術 automatic speech recognition 是一種將人的語音轉換為文字的技術。語音識別是乙個多學科交叉的領域,它與聲學 語音學 語言學 數字訊號處理理論 資訊理論 電腦科學等眾多學科緊密相連。由於語音頻號的多樣性和複雜性,語音識別系統只能在一定的限制條件下獲得滿意的效...