語音頻號可用乙個線性時不變系統的輸出表示,即看做聲門激勵訊號與聲道衝激響應的卷積。在語音頻號處理領域,根據語音頻號求解聲門激勵函式和聲道激勵相應有非常重要的意義,如要求出語音頻號的共振峰(共振峰是聲道傳遞函式個對復共軛極點的頻率),需要知道聲道傳遞函式。
由卷積結果求出參與卷積的各訊號,即將卷積分量分開,通常稱為解卷,也成反卷積。解卷演算法分為兩大類,第一類為引數解卷,包括lpc等。第二類為非引數解卷,同態訊號處理是其中最重要的一種。
同態訊號處理也成通泰旅歐,可實現將卷積關係變為求和關係的分離處理。同態濾波是非線性濾波,但服從廣義疊加原理。對語音頻號進行同態分析可得到其倒譜引數,所以同態分析也成倒譜分析。倒譜引數所包含的資訊比其他引數多,效果更好。
同態處理理論中,任何同態系統均可表示為三個子系統的級聯。如下圖所示:
下面分析同態訊號處理的基本原理。假設輸入訊號為:
其中x1(n)和x2(n)分別為聲門激勵和聲道衝激響應。特性系統d將卷積訊號轉換為加性訊號,其包括三部分,首先進行z變換,將卷積性訊號轉化為乘積性訊號:
再進行對數運算,將成型運算轉化為加性運算:
上面的公式為加性的對數z域訊號,使用起來不方便,因而將其轉變為時域訊號,即最後進行逆z變換,從而:
加性訊號的z變換或逆z變換還是加性訊號,因此通過對x^(n)這個時域訊號可用線性系統來處理。處理後,若將其恢復為卷及訊號,則通過上圖所示的逆變換。
在上式中,x^(n)為時序序列,稱其為x(n)的複數倒譜,簡稱復倒譜,也成為對數復倒譜,其英文為complex cepstrum。顯然x(n)所處的離散時域不同於x(n)所在的離散時域,稱其為復倒譜域。絕大數數字訊號處理問題中,x(z)、x(z)、y(z)、y^(z)的收斂域均包含單位圓,因而上面各式總的正、反z變換均可用dft或idft替代。
除復倒譜外還有倒譜,即將卷積分量分開上面的z逆變換改寫為:
上式表明,c(n)是x(n)對數幅度譜的傅利葉逆變換。復倒譜設計了負對數運算,二倒譜只進行實數的對數運算。
除發清音時,聲門激勵訊號的復倒譜性質是能量較小,頻譜均勻分布的白雜訊外。發濁音時,聲門激勵是以基音週期為週期的衝激序列。即
其中,m為正整數,且0≤r≤m,αr為幅度因子,np為基音週期。根據上面的變換過程就可以求得x(n)的復倒譜:
由上式可得出:
採用最嚴格(也是最普遍的)極零模型描述聲道衝激響應x(n)。按上述變換順序求和復倒譜喉,可得到聲道衝激響應的復倒譜性質:
復倒譜分析中,z變換喉得到的是複數,此時存在相位多值性問題,稱為相位捲繞。相位捲繞使得後續的求復倒譜及由復倒譜恢復語音頻號等運算存在不確定性,從而產生錯誤。常用的避免相位捲繞求復倒譜的方法有微分法、最小相位訊號法、遞推法等。
前面介紹過mel頻率,將頻率變換到mel域後,mel帶通濾波器組的中西頻率均勻排列。用mel帶通濾波器對輸入訊號濾波,每個頻帶分量的作用在人耳中是疊加的,因而將每個濾波器帶內的能量疊加,即取個三角形濾波器頻寬內所有訊號幅度加權和作為帶通濾波器組的輸出,濾波器組數量一般選取12~16個,再對所有濾波器的對數幅度譜進行離散余弦變換(dct)得到mfcc。
現代語音頻號處理[胡航 電子工業出版社] 第五章 倒譜分析與同態濾波
語音頻號處理 梅爾倒頻譜係數MFCC
一句話概括 將時域的語音變為頻域的,對頻域的訊號進行分段濾波,得出不同頻率段的佔比 比如分為26段 所得到的佔比係數組成的矩陣,就是梅爾倒頻譜係數mfcc 作用人之所以能夠通過人聲辨別說話人的身份,是因為每個人的聲道不同,而這個聲道就相當於收集聲音的器物。我們需要提出乙個資料表示方式來代表每個人特定...
《現代語音頻號處理》 胡航著 第1 6章簡介
根據 現代語音頻號處理 胡航版 總大概列出前六章的內容,有些會有一些自己的理解和總結。語音產生的線性模型 語音產生的非線性模型 語音感知 數位化和預處理 短時能量分析 en表示為語音頻號乙個短時間段內的能量,短時平均能量能反映語音能量隨時間變化的特性,用於區分清 濁音等 短時過零分析 短時平均過零數...
語音頻號濾波與逆濾波效果分析
設濾波器傳遞函式為h z 則輸入訊號x z 到輸出訊號y z 的濾波變換是 y z x z h z 濾波時輸入訊號x z 和系統函式h z 已知,通過濾波過程計算輸出訊號y z 逆濾波時則是輸出訊號y z 和系統函式h z 已知,試圖從輸出訊號y z 中恢復輸入訊號x z 即實現x z y z h ...