語音中的關於語音識別的一些知識

2021-09-07 07:15:02 字數 1204 閱讀 5074

以下內容都是抄的,哈哈哈

1.mel頻率:

是模擬人耳對不同頻率語音的感知。

人類對不同頻率語音有不同的感知能力:對1khz以下,與頻率成線性關係,對1khz以上,與頻率成對數關係。頻率越高,感知能力就越差了。因此,在應用中常常只使用低頻mfcc,而丟棄中高頻mfcc。

在mel頻域內,人對音調的感知能力為線性關係,如果兩段語音的mel頻率差兩倍,則人在感知上也差兩倍。 轉換公式:b(f)=1125ln(1+f/700) 其中f為頻率,b為mel-頻率。

2.倒譜:

同態處理的結果,分為複數和實數倒譜,常用實數倒譜,是語音識別中的重要係數。

3,mel頻率倒譜係數引數的提到中:有一步:分幀, 然後再加上窗,原因呢:,下面寫的:

4,那現在總結下倒譜分析,它實際上是這樣乙個過程:

1)將原語音訊號經過傅利葉變換得到頻譜:x[k]=h[k]e[k];

只考慮幅度就是:|x[k] |=|h[k]||e[k] |;

2)我們在兩邊取對數:log||x[k] ||= log ||h[k] ||+ log ||e[k] ||。

3)再在兩邊取逆傅利葉變換得到:x[k]=h[k]+e[k]。

這實際上有個專業的名字叫做同態訊號處理。它的目的是將非線性問題轉化為線性問題的處理方法。對應上面,原來的語音頻號實際上是乙個捲性訊號(聲道相當於乙個線性時不變系統,聲音的產生可以理解為乙個激勵通過這個系統),第一步通過卷積將其變成了乘性訊號(時域的卷積相當於頻域的乘積)。第二步通過取對數將乘性訊號轉化為加性訊號,第三步進行逆變換,使其恢復為捲性訊號。這時候,雖然前後均是時域序列,但它們所處的離散時域顯然不同,所以後者稱為倒譜頻域.

最後幾個圖:

引用:

很好的文獻,可以參考哦:

語音中的關於語音識別的一些知識

以下內容都是抄的,哈哈哈 1.mel頻率 是模擬人耳對不同頻率語音的感知。人類對不同頻率語音有不同的感知能力 對1khz以下,與頻率成線性關係,對1khz以上,與頻率成對數關係。頻率越高,感知能力就越差了。因此,在應用中常常只使用低頻mfcc,而丟棄中高頻mfcc。在mel頻域內,人對音調的感知能力...

一些關於語音識別和語音情感識別的資源

這些資源要麼就收費很貴,要麼用不了,嗯 但是也花了很長時間收集,先留著吧。基於svm的語音情感識別 matlab gui介面和文件 點這裡!pythonnlp情感識別專案實戰教程 原始碼 資料集 點這裡!python 語音情感分析 搜一搜?基於svm的情感分析系統點這裡!基於svm的語音情感識別系統...

一些語音識別的概念

呼叫日誌 call logging 語音識別的呼叫日誌在系統中有著非常重要的作用,該日誌記錄了輸入的音訊 載入的語法 識別過程的中間結果 識別模組呼叫過程 識別使用的各種引數 識別結果以及當時的系統環境資訊。這些資料是效果分析的依據,詳盡的call log是效果優化的基礎。說話人自適應 當使用者多次...