語音的基礎知識

1 語音頻號的處理基礎

(1) 語音頻號的產生模型

語音是由發生器官產生的。肺呼進空氣，由氣管呼出形成氣流，氣流經由聲門，使聲帶振動，產生一系列離散脈衝，再經由咽腔和口腔，有時還經由鼻腔。隨著發音的不同，口的張合程度不同，舌在口中位置的不同，氣流經過各容積不斷變化的空腔時產生許多共振，最後從口和鼻以聲波的形式輻射出來。

因此，可將語音的頻譜寫成 f(w) = s(w) * v(w) * r(w)，其中，f(w)是語音波f(t)的傅利葉變換；s(w)是激勵源s(t)的傅利葉變換；v(w)是聲道脈衝響應v(t)的傅利葉變換；r(w)是口的聲輻射特性r(t)的傅利葉變換。據此構造出模擬人產生語音的「激勵源/濾波器」模型，它由激勵源、聲道模型和輻射模型組成。當激勵源為週期性脈衝時，產生濁音；當激勵源是隨機雜訊時，產生清音。因此，我們就可以用激勵源的線性或非線性組合通過聲道和輻射模型來產生模擬語音。

(2) 語音頻號的主要特性

聲調是語音的基頻隨時間而高低公升降的變化。漢語普通話在乙個音節中就有四種變化：陰平，基頻高而平；陽平，基頻由中到高；上聲，基頻開始由中降至低，然後由低再公升高；去聲，基頻先逐漸公升到最高，再由最高降至最低。

漢語普通話四聲，基頻覆蓋範圍約為1.2~1.6個倍頻程。男聲基頻約為100~300hz，女聲基頻約為160~400hz。

語音頻號是乙個瞬變的過程，是時變非平穩的。在一段很短的時間內(5-50ms)，人的聲帶相對穩定，可近似認為這一小段時間內語音頻號特徵是平穩不變的。語音的頻率範圍約為340hz~4khz，讓語音頻號通過乙個特定的時間窗，然後做短時傅利葉變換，得到短時頻譜。

語音頻號的統計特性可由它的概率密度函式來表示。通過對大量語音材料的分析統計，繪製出振幅直方圖，然後估算出近似的語音概率密度函式。通常有三種常用的近似函式，一種是修正的伽馬分布概率密度函式p(x)=(√k e^(-k|x| ))/(2√π √(|x| )) ，其中k是乙個常數，它與標準差σ

x有關k=√3/(2σx)。

另一種是拉普拉斯分布概率密度函式p(x)=0.5αe^(-α|x|)，其中α是乙個由標準差σx決定的常數α=√2/σx。

第三種就是高斯分布，此時概率密度函式是均值為零、方差變化的高斯隨機變數。在這三種概率密度函式分布中，伽馬分布逼近效果最好，拉普拉斯分布次之，而高斯分布逼近效果最差。

(3) 人耳的聽覺特性

人耳是最靈敏的器官之一，正常人聽覺的強度範圍為0db~140db。當聲音減弱到人耳剛剛可以聽見時，聲音強度稱為「聽閾」；當聲音增強到使人耳感到疼痛時，這個閾值稱為「痛域」。

人耳存在「掩蔽效應」，即乙個較弱的聲音(被掩蔽聲)的聽覺感受被另乙個較強的聲音(掩蔽聲)影響的現象。根據掩蔽聲和被掩蔽聲發生作用的時間相同與否「掩蔽效應」又可分為同時掩蔽和異時掩蔽，同時掩蔽又稱頻域掩蔽，異時掩蔽又稱時域掩蔽。

人可以憑藉雙耳判斷聲源的方向和位置，稱為雙耳定位。相對而言，人耳對聲源遠近的確定程度差於對方向的確定程度。雙耳定位主要依據聲音到達兩耳的時間差和強度差。用麥克風陣列實現聲源定位就是利用聲源到達各麥克風陣元的時間差來實現的。

2 室內聲場

(1) 室內環境

家居環境是乙個室內聲場，房間對聲音的影響主要有：由於四周封閉而引起的反射聲；改變聲音的音質；由於簡正振動的激發，增加聲能密度；使聲音在空間的分布發生變化。

聲音傳入房間的途徑有兩種：一種是空氣傳聲，即空氣聲沿空氣路線透射；另一種是結構聲，即由衝擊引起固體振動產生空氣聲。一般家居環境允許雜訊級35db~40db，在室內，相距5m大聲談話的雜訊級約為70db~75db，一般談話的雜訊級約為60db~70db。

通常用聲壓和質點速度表徵室內聲場。當聲波傳到牆上時，部分能量被吸收，部分能量被反射。反射的聲音會形成回聲、聲焦點、死點和室內顫動回聲等現象，導致音質缺陷。

在室內，聲波經過反射到達人耳的路程一般大於直達聲，如兩路程差大於17m，相當於0.05s的時間差，則人耳就能感覺到回聲。如果室內存在凹面，則會使室內聲級分布不均勻，形成凹面聚焦，導致音質不良，即聲焦點現象。而由於凹面聚焦的影響，室內聲音集中，使其他處感到反射聲不足，此時這些區域就形成死點。一般室內壁面總是平行相對的，所以若發出乙個單脈衝聲，比如掌聲，將會在這相對的兩面牆之間來回反射，從而會產生顫動回聲。

(2) 混響

當聲源在房間內停止發聲後，殘餘聲能在房間內往復反射，產生混響。通常用混響時間t，即聲能密度下降為原來的百萬分之一所需的時間，或者說聲能密度衰減60db所需的時間來衡量房間的混響效果。

混響時間的計算有兩個常用公式：賽賓公式或賽賓-耶格公式：t=0.163v/(αs)，艾潤公式：t=0.163v/(-sln(1-α))，式中，t為混響時間(s)；s為房間內總表面積(m2)；v為房間的總容積(m3)；α為房間內表面的平均吸聲係數。

一般說來，混響時間太短，聲音變得沉悶枯燥；混響時間太長，則會使聲音混淆不清。一般劇場的混響時間約為1s~3s；一般會議廳的混響時間約為0.8s~1.2s；一般家居環境的混響時間約為0.1s~0.3s。

3 語音增強評價準則

語音增強的目的是要盡可能的衰減我們不需要的雜訊，同時盡可能保持期望語音不衰減不失真。麥克風陣列語音增強的方法很多，為了衡量一種方法的優劣，就需要一些評價準則。

(1) 主觀評價方法

主觀評價方法是人在聽到語音後對語音質量的主觀感受，是最基本的評價方法，主要包括：平均評價評方法(meanopinion score，mos)，診斷性押韻測試法(diagnostic-

rhyme test，drt)，改進的押韻測試法(modifiedrhyme test，mrt)。

mos法是ccitt推薦的，是目前使用最廣泛的主觀評價方法。這種評分法對聽音人的要求較高，最好是有經驗的聽音專家來參與評分。聽音人根據語音的總體印象，從擬人性、連貫性、韻律感等方面，用優、良、中、差、劣五級計分來評價。在用mos法評分時，可以先把好的語音和壞的語音讓聽音人聽一下，再開始測試打分，保證評價的準確性。

drt法是用來測試語音音節的清晰度。每個系統一般使用兩張drt音節表，三個音節為一組，每個組為乙個文字檔案。測試時的輸入語音應為3~4音節/秒，不應太慢，然後統計全體實驗者對輸出語音音節判斷正確的百分比。

mrt法是drt法的改進，在drt中每組可測三個漢字的讀音，而在mrt中每組只測乙個漢字的讀音。

主觀評價方法以人的主觀感受為主，對於人機互動來說顯然不足，因為機器不可能達到大腦的智慧型程度。在數字訊號處理時，就需要將這種主觀感受量化，以數學的形式表現出來，從而人們提出了客觀評價方法。

(2) 客觀評價方法

客觀評價法是根據增強語音的時域波形或頻域波形，給出客觀的數值度量。其特點是計算簡單，不用花費大量人力物力，但並不能完全反映人的主觀感受。

這裡簡要介紹訊雜比(signal-to-noise ratio)、雜訊衰減係數(noise-reducti-on factor)、語音失真指數(speech-distortionindex)、語音衰減係數(speech-reduction factor)。

1) 訊雜比

訊雜比是雜訊抑制方面最重要的評價標準，分為輸入訊雜比和輸出訊雜比。輸入訊雜比就是期望訊號強度與背景雜訊強度的比值，即isnr=e[x(k)^2 ]/e[v(k)^2 ] ，其中e[x2(k)]和e[v2(k)]分別為訊號x(k)和雜訊v(k)的方差。

輸出訊雜比就是語音增強後訊號強度與雜訊強度的比值，即osnr(h)=tr(hrxh^t)/tr(hrvh^t) ，式中tr表示方陣的跡；h為濾波器係數；rx為訊號的自相關矩陣；rv為雜訊的自相關矩陣；t表示轉置。

一般常用訊雜比增益來表示語音增強系統的效能，即用輸出訊雜比減去輸入訊雜比： δsnr=osnr-isnr 。

2) 雜訊衰減係數

雜訊衰減係數是對系統衰減的雜訊的量化，在時域可定義為ξnr(h)=tr(rv)/tr(hrvh^t) 。

3) 語音失真指數

語音在經過濾波器後不可避免的會失真，語音失真指數就是為了度量語音失真程度，定義為vsd(h)=tr[(h-i)rx(h-i)^t ]/tr(rx) ，式中i是單位矩陣。

4) 語音衰減係數

語音衰減係數類似於雜訊衰減係數，因為輸入訊號是期望語音和雜訊的混合，經過濾波器後，不僅衰減了雜訊，期望語音不可避免的也要受到一定的衰減。一般的，語音衰減暗示著語音失真。

語音衰減係數表示為ξsr(h)=tr(rx)/tr(hrxh^t) 。

以上幾種語音增強的客觀評價方法，訊雜比顯然是一種非常重要的評價準則。實際上，人耳能很好的分辨不同訊雜比的含噪語音。

雜訊衰減係數是一種相對的評價準則，因為它不依靠期望訊號的失真或衰減。在有些情況下雜訊衰減係數可能遠大於1，而訊雜比卻沒有增加。語音失真指數和語音衰減係數非常粗糙的評價標準。四種評價標準之間有如下關係：(osnr(h))/isnr=(ξnr(h))/(ξsr(h))。

語音的基礎知識

語音基礎知識

VOIP語音基礎知識

語音識別基礎知識

語音的基礎知識

語音基礎知識

VOIP語音基礎知識

語音識別基礎知識

相關推薦