語音處理技術

語音的物理基礎主要有音高、音強、音長、音色，這也是構成語音的四要素。

音高指聲波頻率，即每秒鐘振動次數的多少；

音強指聲波振幅的大小；

音長指聲波振動持續時間的長短，也稱為"時長"；

音色指聲音的特色和本質，也稱作"音質",與語音的波形有關.

語音活動檢測（voice detect activity）

在使用者沒有講話時，就沒有語音分組的傳送，從而可以進一步降低語音位元率。當使用者的語音頻號能量低於一定門限值時就認為是靜默狀態，也不傳送語音分組。當檢測到突發的活動聲音時才生成語音頻號，並加以傳輸。運用這種技術可以節省50%的頻寬。

短時能量分析和過零率分析作為語音頻號時域分析中最基本的方法.

根據語音的統計特性，可以把語音段分為清音、濁音以及靜音（包括背景雜訊）三種。

濁音的能量較大，過零率較小；清音的能量較小，過零率較大。靜音能量和過零率都很小。

短時平均過零數可以用來區分清音和濁音。發濁音時，語音能量約集中於3khz以下。而發清音時，多數能量集中在較高的頻譜上。濁音具有較低的平均過零數，而清音時具有較高的平均過零數.

對語音頻號，濁音的過零率較小，清音的過零率較大，在靜默期，若存在背景雜訊，則過零率較大，若不存在背景雜訊，則過零率較小。一般的經驗資料是：當取樣頻率為8 000hz時，對乙個10 ms的語音幀，清音的過零率大於49，濁音的過零率小於14。

對於清音，由於其能量較小，在短時能量檢測中會因為低於能量門限而被誤判為靜音；

短時過零率則可以從語音中區分出靜音和清音。將兩種檢測結合起來，就可以檢測出語音段（清音和濁音）及靜音段。