音訊壓縮編碼的本質是感知編碼,利用感知模型去除不敏感的聲音資料,同時保證聲音質量不會有明顯下降。它採用子帶編碼技術,根據心理聲學模型獲得不同子帶的聽覺掩蔽閾值,並對每個子帶的取樣值進行動態量化。
1、音訊壓縮的可能性
(1)聲音頻號中的「冗餘」資訊:
頻域:非均勻功率密度譜, 低頻能量高,高頻能量低。
時域:資訊冗餘度主要表現在幅度非均勻分布,即不同幅度的樣值出現的概率不同,小幅度的樣值比大幅度樣值出現的概率高。
(2)聲音中存在與聽覺無關的「不相關」部分:
利用人耳聽覺的心理聲學模型,對於人耳感覺不到的不相關部分不編碼、不傳送,以達到資料壓縮的目的。
2、心理聲學模型
人耳聽覺系統存在乙個聽覺閾值電平,低於該電平的聲音聽不到。聽覺閾值的大小隨聲音頻率的的改變而改變。乙個人是否能聽到聲音取決於聲音的頻率,以及聲音的幅度是否高於該頻率下的聽覺閾值。
3、掩蔽效應
乙個較弱的聲音的聽覺感受被另乙個較強的聲音影響的現象稱為人耳的聽覺掩蔽效應。聽不到的叫被掩蔽聲,起掩蔽作用的叫掩蔽聲。掩蔽效應分為頻域掩蔽和時域掩蔽。
頻域掩蔽:乙個強純音會掩蔽在其附近同時發聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽。音調音的掩蔽閾的寬度隨頻率而變化;掩蔽曲線不對稱,高頻段一側的曲線斜率緩些;低頻音容易對高頻音產生掩蔽。
時域掩蔽:在時間上相鄰的聲音之間也有掩蔽現象。時域掩蔽又分為超前掩蔽和滯後掩蔽。
4、臨界頻帶
當某個純音被以它為中心頻率、具有一定頻寬的連續雜訊所掩蔽時,該純音剛好被聽到時的功率等於這一頻帶內的雜訊功率,這個頻寬稱為臨界頻帶。它是心理聲學模型的基本單位。
人類聽覺系統大致等效於乙個在0hz到20khz頻率範圍內,由25個重疊的帶通濾波器組成的濾波器組。人耳不能區分同一頻帶內同時發生的不同聲音,人耳頻帶被稱為臨界頻帶。500hz以下臨界頻帶的頻寬大約是100hz,500hz以上呈線性增加。
掩蔽效應在一定頻率範圍內不隨頻寬增大而改變,直至超過某個頻率值。
5、子帶編碼
使用一組帶通濾波器把輸入音訊訊號的頻帶分成若干個連續的頻段,每個頻段稱為子帶。對每個子帶中的音訊訊號採用單獨的編碼方案去編碼。在通道上傳送時,將每個子帶的**復合起來。在接收端解碼時,將每個子帶的**單獨解碼,然後把它們組合起來,還原出原來的音訊訊號。
6、基本的子帶編碼系統:量化和編碼
①位元因子的取值及編碼
對各個子帶每12個樣點進行一次比例因子計算。先定出12個樣點中絕對值的最大值。查比例因子表中比這個最大值大的最小值作為比例因子。用6位元表示。
第2層的一幀對應36個子帶樣值,是第1層的三倍,原則上要傳三個比例因子。為了降低比例因子的傳輸碼率, 採用了利用人耳時域掩蔽特性的編碼策略。
每幀中每個子帶的三個比例因子被一起考慮,劃分成特定的幾種模式。根據這些模式,1個、2個或3個比例因子和比例因子選擇資訊(每子帶2位元)一起被傳送。如果乙個比例因子和下乙個只有很小的差別,就只傳送大 的乙個,這種情況對於穩態訊號經常出現。
②位元分配及編碼
在調整到固定的位元速率之前,先確定可用於樣值編碼的有效位元數,這個數值取決於比例因子、比例因子選擇資訊、位元分配資訊以及輔助資料所需位元數。
對每個子帶計算掩蔽-雜訊比mnr,是訊雜比snr – 信掩比 smr,即:mnr = snr – smr,使整個一幀和每個子帶的總雜訊-掩蔽比最小。這是乙個迴圈過程,每一次迴圈使獲益最大的子帶的量化級別增加一級,當然所用位元數不能超過一幀所能提供的最大數目。
③子帶樣值的量化及編碼
輸入以12個樣本為一組,每組樣本經過時間-頻率變換 之後進行一次位元分配並記錄乙個比例因子(scale factor) 。位元分配資訊告訴解碼器每個樣本由幾位表示,比例因子用6位元表示,解碼器使用這個6位元的比例因子乘逆量化器的每個輸出樣本值,以恢復被量化的子帶值。比例因子的作用是充分利用量化器的量化範圍,通過位元分配和比例因子相配合,可以表示動態範圍超過120db的樣本 。
7、資料幀的包裝
層ⅰ每幀含384個樣本資料,每幀由32個子帶分別輸出的12個樣本值組成。以48khz取樣,則一幀長為:32x12x20.83us=8ms。
層ⅱ每幀包含1152個樣本。低、中、高頻段對位元分配不同,分別是4、3、2位元。位元流中增加的位元因子選擇資訊域提供是否需要及如何共享比例因子等資訊。
感知音訊編碼的設計思想是:乙個矛盾兩條線。
乙個矛盾:時域分析和頻域分析的矛盾->提高時域,放棄頻域
兩條線:根據基本原理得出兩條路線的編碼圖(musicam編碼器):
1、輸出音訊取樣率和目標位元速率
if(framenum==20)
2、輸出某幀所分配的位元數、比例因子和位元分配結果
1、從比例因子輸出結果可以看出,同一子帶3個比例因子很接近,可以壓縮很多的冗餘資料。
2、從幀位元分配結果可以看出,越高頻位元數分配得越少。
資料壓縮 實驗六 MPEG音訊編碼實驗
下圖為mpeg音訊編碼layerii流程圖 32個子帶濾波器組 通過子帶分析濾波器組使訊號具有高的時間解析度,確保在短暫衝擊訊號情況下,編碼的聲音頻號具有足夠高的質量。將pcm樣本變換到32個子帶的頻域訊號 如果輸入的取樣頻率為48khz 那麼子帶的頻率寬度為48 2 32 0.75hz 該多相濾波...
資料壓縮實驗六 MPEG音訊編碼
mpeg 1 audio layerii編碼器原理 對各個子帶每12個樣點進行一次比例因子計算。先定出12個 樣點中絕對值的最大值。查比例因子表中比這個最大值大的 最小值作為比例因子。用6位元表示。第2層的一幀對應36個子帶樣值,是第1層的三倍,原 則上要傳三個比例因子。為了降低比例因子的傳輸碼率,...
MPEG音訊編碼實驗報告
下圖為mpeg音訊編碼layerii流程圖 通過子帶分析濾波器組使訊號具有高的時間解析度,確保在短暫衝擊訊號情況下,編碼的聲音頻號具有足夠高的質量。將pcm樣本變換到32個子帶的頻域訊號 如果輸入的取樣頻率為48khz 那麼子帶的頻率寬度為48 2 32 0.75hz 該多相濾波器組為如下圖 計算訊...