方法二:深度學習特徵提取
通過取樣將連續的模擬訊號轉換為離散的數碼訊號,便於後續的數位化處理
正常的音訊一般低頻成分比高頻成分多,通過預加重提公升語音頻號的高頻部分,使頻譜光滑
1.目的:增加高頻成分,使頻譜光滑
2.方法:
3.效果圖:
數位化的語音頻號是乙個不平穩的時變訊號,具有短時平穩性。因此在對語音頻號進行分析前,
需要對其進行分幀,通常將每幀的長度設為20ms,相鄰兩幀之間有10ms的幀移
1.目的:利用音訊訊號的短時平穩性,分幀後的訊號更便於後續處理
2.方法:幀長20ms,幀移10ms進行幀
3.效果圖:
離散傅利葉變換的目的就是將音訊訊號從時域轉換到頻域
1.目的:將音訊訊號從時域轉到頻域
2.方法:
將線性頻率轉換**類聽覺敏感的mel頻率,同時對頻譜進行平滑(消除諧波的影響,突出原始
語音的共振峰)和降低資訊量
1.目的:將之前得到的線性頻率轉換為符合人耳頻率的mel頻率
2.轉換公式:
3.mel濾波器:
採用log壓縮動態範圍,人類對訊號能量的感知是對數的
得到倒譜係數,平滑對數功率譜
描述倒譜係數隨時間的變化。一階差分是計算當前時刻的後一時刻與前一時刻的差值,二階差分是
將一階差分結果作為當前序列,計算當前時刻的後一時刻與前一時刻的差值
對於語音識別,16khz的取樣率就足以覆蓋人類語音的頻率範圍了。16khz即每秒取樣16000個樣本點,
下圖給出的是前100個取樣點的截圖,其中每個點的值表示聲波在1/16000處的振幅。
直接把這16000個數字輸入到神經網路中分析取樣來進行語音識別仍然很困難。所以可以通過對音訊資料進行一些預處理來使問題變得更容易。比如首先將取樣音訊分成每份20ms長的音訊塊,下圖給出的第一 個20ms的音訊(即前320個取樣點):
通過傅利葉變換將複雜的聲波分解為一系列簡單聲波的疊加。有了這些單獨的聲波後就可以將每乙份頻段所包含的能量加在一起,最終得到的結果就是從低音到高音,每個頻率範圍的重要程度。以50hz為乙個頻段的話,20ms的音訊所含有的能量從低頻到高頻就可以表示為下圖,其中每個數字表示50hz的頻段所含的能量:
對每20ms的音訊塊重複這個過程,最終得到乙個頻譜圖(每一列從左到右都是乙個20ms的塊):
有了格式易於處理的音訊,再將它輸入到神經網路中去。神經網路的輸入便是這些20ms的音訊塊,對於每個小的音訊切片,神經網路都將嘗試找出當前正在說的聲音所對應的字母。
特徵工程 特徵提取
特徵提取 將任意資料 如文字或影象 轉換為可用於機器學習的數字特徵 注 特徵值化是為了計算機更好的去理解資料 字典特徵提取 作用 對字典資料進行特徵值化 dictvectorizer.get feature names 返回類別名稱 from sklearn.feature extraction i...
顏色特徵提取
顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...
顏色特徵提取
顏色特徵是在影象檢索中應用最為廣泛的視覺特徵,主要原因在於顏色往往和影象中所包含的物體或場景十分相關。此外,與其他的視覺特徵相比,顏色特徵對影象本身的尺寸 方向 視角的依賴性較小,從而具有較高的魯棒性。面向影象檢索的顏色特徵的表達涉及到若干問題。首先,我們需要選擇合適的顏色空間來描述顏色特徵 其次,...