語音頻號處理知識點

2021-08-29 10:21:13 字數 2485 閱讀 2417

語音頻號處理過程的總體結構:

語音輸入-->預處理-->數位化-->特徵提取

預處理:對訊號適當放大和增益控制,並進行反混疊濾波來消除工頻訊號干擾

數位化:進行a/d轉換

特徵提取:用反映語音頻號特點的若干引數來代表語言

共振峰:當把聲道看成乙個發音的腔體的時候,激勵的頻率達到他的固有頻率,則聲道會以最大的振幅來振盪,即產生共鳴,這個頻率稱為共振頻率(formant frequency),簡稱共振峰(formant)

語音頻號分析分為時域、頻域、倒譜域

時域分析優點:簡單直觀、清晰易懂、運算量小、物理意義明確

常用的頻域分析方法有帶通濾波器組方法、傅利葉變換方法和線性**分析法

頻譜分析方法優點:頻譜對外界環境變化具有一定的頑健性。利用頻域分析獲得語音特徵具有實際的物理意義。如:共振峰引數、基音週期等引數

倒譜域是將對數功率譜進行反傅利葉變換後得到的

語音頻號分析分為模型分析法和非模型分析法。

模型分析法:依據語音頻號產生的數學模型,來分析和提取表徵這些模型的特徵引數:共振峰模型分析和線性**分析

語音頻號數位化

數位化之前,必須進行防混疊濾波防工頻干擾濾波。防混疊濾波指濾除高於1/2取樣頻率的訊號成分或雜訊,是訊號頻寬限制在某個範圍內,否則產生頻率混疊;工頻干擾指50hz的電源干擾。

語音頻號的取樣與量化:將語音頻號變成時間和幅度都離散的數碼訊號。

取樣:把模擬訊號在時間域上進行等間隔取樣,兩個取樣點之間的間隔成為取樣週期,倒數稱為取樣頻率。當取樣頻率大於訊號最高頻率的兩倍的時候,在取樣過程中就不會丟失資訊,且可以用取樣後的訊號重構原始訊號。

量化:將整個訊號的幅度值分成若干個有限的區間,並把落入同一區間的樣本點用同乙個幅度表示,這個幅度值稱為量化值。 零記憶量化、分組量化、序列量化

預加重:提公升高頻部分,使訊號的頻譜變得平坦,便於進行頻譜分析或公升到引數的分析。

u值接近於1,典型取值在0.94~0.97之間,預加重後的訊號在分析處理之後需要進行去加重處理。

短時加窗處理

為了得到短時的語音頻號(10ms~30ms短時間內是平穩的),窗函式平滑地在語音頻號上滑動,將語音頻號分成幀。分針可以連續,也可以採用交疊分段的方法,交疊部分稱為幀移,一般為窗長的一半。

矩形窗

漢明窗:

漢寧窗

n為視窗長度,不同的窗函式形狀將影響分幀後短時特徵的特性。

矩形窗的譜平滑性較好,但波形細節丟失,並且矩形窗會產生洩露現象;而漢明窗可以有效地克服洩露現象,應用範圍也最為廣泛。

時域分析

短時能量分析:

短時能量可以區分清音和濁音,濁音能量比清音大;其次可以用短時能量對有聲段和無聲段進行判定、對聲母韻母分解以及對連字分界等;作為特徵中的一維引數來表示語音頻號能量的大小和超音段資訊。

由於短時能量是對訊號進行平方運算,因而人為增加了高低訊號之間的差距,可以用短時平均幅值來表示能量變化

短時平均過零率:

每幀內訊號通過零值的次數。對於連續訊號,考察時域波形通過時間軸的情況;對於離散訊號,訊號取樣點符號變化的次數

一般,濁音段有較低的過零率,清音段有較高的過零率

將短時平均過零率和短時能量結合起來判斷語音起止點的位置,即進行端點檢測。

上面定義中計算短時平均過零率容易受到低頻的干擾,可以設立乙個門限t,將過零率的含義修改為跨過正負門限的次數:

待續... ...

語音頻號處理

濁音的聲帶振動基本頻率 fundamental frequency 稱為基音頻率。濁音的基音頻率 pitch 語音生成系統和語音感知系統 語音頻號生成的數學模型 語音頻號的特性分析 語音頻號處理是以語音語言學和數字訊號處理為基礎的綜合性學科,是用數字訊號處理技術對語音頻號進行處理的一門學科。說話人識...

語音頻號的預處理

2014年09月05日 綜合 共 1116字 字型大小 小 中 大 回顧上兩次的內容 上次主要說了音訊檔案的讀取 主要是matlab和c語言 感覺有幾個概念有點混淆 語音 音訊 語音英文是speech,音訊是audio,是music。據我的理解是音訊包括語音和 不知道這麼理解對不?此外,讀取音訊其實...

語音頻號處理共振峰

首先,什麼是語譜圖。最通常的,就是語音短時傅利葉變換的幅度畫出的2d圖。之所以是通常的,是因為可以不是傅利葉變換。窄帶 顧名思義,頻寬小,則時寬大,則短時窗長,窄帶語譜圖就是長窗條件下畫出的語譜圖。寬頻 正好相反。至於 橫豎條紋 窄帶語譜圖的帶寬窄,那麼在頻率上就 分得開 即能將語音各次諧波 看得很...