語音頻號的預處理

2023年09月05日

⁄ 綜合 ⁄ 共 1116字 ⁄ 字型大小

小中大

回顧上兩次的內容：上次主要說了音訊檔案的讀取（主要是matlab和c語言

）。感覺有幾個概念有點混淆：語音、音訊、**。語音英文是speech，音訊是audio，**是music。據我的理解是音訊包括語音和**。（不知道這麼理解對不？）。此外，讀取音訊其實可以理解d/a轉化嗎？有待確定。希望基礎知識可以更加牢固點。接下來，我們進入正題。

這次，說語音頻號的預處理。其實預處理是很重要的，它會影響我們最後的結果。比如，當遇到一堆資料要處理時，我們首先看看是不是需要歸一化？這對於我們後面的聚類和**的結果影響很大。說完重要性，就具體說怎麼去預處理我們的語音頻號。預處理包括預加重和加窗分幀。

預加重，其目的是為了對語音的高頻部分進行加重，去除口唇輻射的影響，增加語音的高頻解析度。一般是通過傳遞函式是一階fir高通數字濾波器來實現。設第n時刻的語音取樣值為x(n)，經過預加重處理後的結果是y(n)=x(n)-ax(n-1)，其中a為預加重係數，一般是0.9~1.0之間，通常取0.98。

預加重的實現：

matlab：y=filter([1 -1],[1 -0.98],x);

c語言：用個迴圈還是可以解決的。這裡就不贅述了。

剩下就是加窗分幀。語音頻號是一種隨時間而變化的訊號，主要分為濁音和清音兩大類。濁音的基因週期、清濁音訊號幅度和聲道引數等都隨時間而緩慢變化。可以近似認為在一小段時間裡語音頻號近似不變，即語音頻號具有短時平穩性。（這是個很重要的性質哦！）。之所以具有短時平穩性，我們就可以把語音頻號分成一些短段來進行處理。一般每秒的幀數是33~100幀。一般幀之間都有重疊，大多數是50%。幀長一般是10ms到30ms。

下面來介紹下常見的窗函式。主要有矩形窗、漢明窗(hamming)、漢寧窗(hanning)等。下面來說下這三個窗函式：

具體matlab有這些函式。大家可以去查詢下。

需要說明的是，窗函式的選擇是有技巧的。一般選擇漢明窗或者漢寧窗。具體的可以根據三個窗的時域性質和輻頻特徵來看。

語音頻號的預處理

語音頻號處理

語音頻號處理共振峰

語音頻號的加窗處理

語音頻號的預處理

語音頻號處理

語音頻號處理共振峰

語音頻號的加窗處理

相關推薦