網易 MC 音訊處理與壓縮技術

在進一步了解音訊處理和壓縮之前需要知道這些：

（1）音調：泛指聲音的頻率資訊，人耳的主觀感受為聲音的低沉（低音）或者尖銳（高音）。

（2）響度：聲音的強弱。

（3）取樣率：聲音資訊在由模擬訊號轉化為數碼訊號過程中的精確程度，取樣率越高，聲音資訊保留的越多。

（4）取樣精度：聲音資訊在由模擬訊號轉化為數碼訊號過程中，表示每乙個取樣點所需要的位元組數，一般為 16bit（雙位元組）表示乙個取樣點。

（5）聲道數：相關的幾路聲音數量，常見的如單聲道、雙聲道、5.1 聲道。

（6）音訊幀長：音訊處理或者壓縮所操作的一段音訊資訊，常見的是 10ms，20ms，30ms。

1、雜訊抑制（noise suppression）

2、回聲消除（acoustic echocanceller）

以 webrtc 為例，其中的回聲抑制模組建議移動裝置採用運算量較小的

aecm 演算法，該演算法的處理步驟如下圖所示。有興趣的讀者可以參考

aecm 的源**進行研究，這裡不展開介紹了。

3、自動增益控制（auto gain control）

手機等裝置採集的音訊資料往往有時候響度偏高，有時候響度偏低，造成聲音忽大忽小，影響聽眾的主觀感受。自動增益控制演算法根據預先配置的引數對輸入聲音進行正向/負向調節，使得輸出的聲音適宜人耳的主觀感受。

以 webrtc 為例，它的自動增益控制演算法的基本流程圖如下所示。

4、靜音檢測（voice activitydetection）

靜音檢測的基本原理：計算音訊的功率譜密度，如果功率譜密度小於閾值則認為是靜音，否則認為是聲音。靜音檢測廣泛應用於音訊編碼、agc、aecm 等。

5、舒適雜訊產生（comfortablenoisegeneration）

舒適雜訊產生的基本原理：根據雜訊的功率譜密度，人為構造雜訊。廣泛適用於音訊編解碼器。在編碼端計算靜音時的白雜訊功率譜密度，將靜音時段和功率譜密度資訊編碼。在解碼端，根據時間資訊和功率譜密度資訊，重建隨機白雜訊。

它的應用場景：完全靜音時，為了創造舒適的通話體驗，在音訊後處理階段新增隨機白雜訊。

音訊的另乙個廣泛應用的領域：音訊編碼。

首先看一下當前應用最廣泛的一些音訊編碼標準，如下圖所示。

圖中橫軸是音訊編碼位元速率，縱軸是音訊頻帶資訊。從圖中我們可以獲得如下幾方面資訊。

（1）對於固定位元速率的編碼標準，如 g.711 或者 g.722，圖中採用單點表示，說明這兩個編碼標準是固定位元速率編碼標準。其他如 opus、speex，它們的曲線是連續的，說明這類編碼標準是可變位元速率的編碼標準。

（2）從頻帶方面看，g.711、g.722、amr 和 ilbc 等標準適用於narrowband（8khz 取樣率）和 wideband（16khz 取樣率）範圍，針對普通的語音通話場景。aac 和 *** 適用於 fullband（48khz取樣率）範圍，針對特殊的**場景。而 opus 適用於整個頻帶，可以進行最大範圍的動態調節，適用範圍最廣。

（3）從標準的收費情況看，適用於網際網路傳輸的 ilbc、speex 和 opus都是免費且開源的；適用於**場景的 *** 和 aac，需要 license 授權，而且不開源。

網易 MC 音訊處理與壓縮技術

音訊訊號處理技術學習筆記

音訊處理庫 pydub與ffmpeg

音訊編碼技術G 729與G 711

網易 MC 音訊處理與壓縮技術

音訊訊號處理技術學習筆記

音訊處理庫 pydub與ffmpeg

音訊編碼技術G 729與G 711

相關推薦