2023年09月05日
⁄ 綜合 ⁄ 共 1116字 ⁄ 字型大小
小 中 大
回顧上兩次的內容:上次主要說了音訊檔案的讀取(主要是matlab和c語言
)。感覺有幾個概念有點混淆:語音、音訊、**。語音英文是speech,音訊是audio,**是music。據我的理解是音訊包括語音和**。(不知道這麼理解對不?)。此外,讀取音訊其實可以理解d/a轉化嗎?有待確定。希望基礎知識可以更加牢固點。接下來,我們進入正題。
這次,說語音頻號的預處理。其實預處理是很重要的,它會影響我們最後的結果。比如,當遇到一堆資料要處理時,我們首先看看是不是需要歸一化?這對於我們後面的聚類和**的結果影響很大。說完重要性,就具體說怎麼去預處理我們的語音頻號。預處理包括預加重和加窗分幀。
預加重,其目的是為了對語音的高頻部分進行加重,去除口唇輻射的影響,增加語音的高頻解析度。一般是通過傳遞函式是一階fir高通數字濾波器來實現。設第n時刻的語音取樣值為x(n),經過預加重處理後的結果是y(n)=x(n)-ax(n-1),其中a為預加重係數,一般是0.9~1.0之間,通常取0.98。
預加重的實現:
matlab:y=filter([1 -1],[1 -0.98],x);
c語言:用個迴圈還是可以解決的。這裡就不贅述了。
剩下就是加窗分幀。語音頻號是一種隨時間而變化的訊號,主要分為濁音和清音兩大類。濁音的基因週期、清濁音訊號幅度和聲道引數等都隨時間而緩慢變化。可以近似認為在一小段時間裡語音頻號近似不變,即語音頻號具有短時平穩性。(這是個很重要的性質哦!)。之所以具有短時平穩性,我們就可以把語音頻號分成一些短段來進行處理。一般每秒的幀數是33~100幀。一般幀之間都有重疊,大多數是50%。幀長一般是10ms到30ms。
下面來介紹下常見的窗函式。主要有矩形窗、漢明窗(hamming)、漢寧窗(hanning)等。下面來說下這三個窗函式:
具體matlab有這些函式。大家可以去查詢下。
需要說明的是,窗函式的選擇是有技巧的。一般選擇漢明窗或者漢寧窗。具體的可以根據三個窗的時域性質和輻頻特徵來看。
語音頻號處理
濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...
語音頻號處理共振峰
首先,什麼是語譜圖。最通常的,就是語音短時傅利葉變換的幅度畫出的2d圖。之所以是通常的,是因為可以不是傅利葉變換。窄帶 顧名思義,頻寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。寬頻 正好相反。至於 橫豎條紋 窄帶語譜圖的帶寬窄,那麼在頻率上就 分得開 即能將語音各次諧波 看得很...
語音頻號的加窗處理
平穩的隨機過程是研究語音頻號的主要手段,但是語音頻號本身並不是平衡的。一,語音頻號不平穩 語音頻號在產生過程中與環境和發聲器官的聯絡很緊密,與各種運動都是相關的,訊號本身是不平移的訊號。主要是由於發聲器官的運動不可 帶來的短時變。但發聲器官的狀態變化速度較聲音振動的速度要緩慢的多,因此語音頻號可以認...