在進一步了解音訊處理和壓縮之前需要知道這些:
(1)音調:泛指聲音的頻率資訊,人耳的主觀感受為聲音的低沉(低音)或者尖銳(高音)。
(2)響度:聲音的強弱。
(3)取樣率:聲音資訊在由模擬訊號轉化為數碼訊號過程中的精確程度,取樣率越高,聲音資訊保留的越多。
(4)取樣精度:聲音資訊在由模擬訊號轉化為數碼訊號過程中,表示每乙個取樣點所需要的位元組數,一般為 16bit(雙位元組)表示乙個取樣點。
(5)聲道數:相關的幾路聲音數量,常見的如單聲道、雙聲道、5.1 聲道。
(6)音訊幀長:音訊處理或者壓縮所操作的一段音訊資訊,常見的是 10ms,20ms,30ms。
1、雜訊抑制(noise suppression)
2、回聲消除(acoustic echocanceller)以 webrtc 為例,其中的回聲抑制模組建議移動裝置採用運算量較小的
aecm 演算法,該演算法的處理步驟如下圖所示。有興趣的讀者可以參考
aecm 的源**進行研究,這裡不展開介紹了。
3、自動增益控制(auto gain control)手機等裝置採集的音訊資料往往有時候響度偏高,有時候響度偏低,造成聲音忽大忽小,影響聽眾的主觀感受。自動增益控制演算法根據預先配置的引數對輸入聲音進行正向/負向調節,使得輸出的聲音適宜人耳的主觀感受。
以 webrtc 為例,它的自動增益控制演算法的基本流程圖如下所示。
4、靜音檢測(voice activitydetection)靜音檢測的基本原理:計算音訊的功率譜密度,如果功率譜密度小於閾值則認為是靜音,否則認為是聲音。靜音檢測廣泛應用於音訊編碼、agc、aecm 等。
5、舒適雜訊產生(comfortablenoisegeneration)舒適雜訊產生的基本原理:根據雜訊的功率譜密度,人為構造雜訊。廣泛適用於音訊編解碼器。在編碼端計算靜音時的白雜訊功率譜密度,將靜音時段和功率譜密度資訊編碼。在解碼端,根據時間資訊和功率譜密度資訊,重建隨機白雜訊。
它的應用場景:完全靜音時,為了創造舒適的通話體驗,在音訊後處理階段新增隨機白雜訊。
音訊的另乙個廣泛應用的領域:音訊編碼。
首先看一下當前應用最廣泛的一些音訊編碼標準,如下圖所示。
圖中橫軸是音訊編碼位元速率,縱軸是音訊頻帶資訊。從圖中我們可以獲得如下幾方面資訊。
(1)對於固定位元速率的編碼標準,如 g.711 或者 g.722,圖中採用單點表示,說明這兩個編碼標準是固定位元速率編碼標準。其他如 opus、speex,它們的曲線是連續的,說明這類編碼標準是可變位元速率的編碼標準。
(2)從頻帶方面看,g.711、g.722、amr 和 ilbc 等標準適用於narrowband(8khz 取樣率)和 wideband(16khz 取樣率)範圍,針對普通的語音通話場景。aac 和 *** 適用於 fullband(48khz取樣率)範圍,針對特殊的**場景。而 opus 適用於整個頻帶,可以進行最大範圍的動態調節,適用範圍最廣。
(3)從標準的收費情況看,適用於網際網路傳輸的 ilbc、speex 和 opus都是免費且開源的;適用於**場景的 *** 和 aac,需要 license 授權,而且不開源。
音訊訊號處理技術學習筆記
音訊資訊處理技術主是多 技術的主要組成之一。本文主要介紹音訊資訊處理技術的基本原理和應用。音訊 audio 指人耳可以聽到的聲音頻率在20hz 20khz之間的聲波。模擬音訊 在時間和幅度上都是連續變化的。數字音訊 在時間和幅度上都是離散 不連續的。計算機中使用的是數字音訊。自然界的聲音一般都是模擬...
音訊處理庫 pydub與ffmpeg
安裝pydub pip install pydub 安裝ffmpeg mac下 brew install ffmpeg windows下 2.解壓 3.將子級目錄的bin目錄配置到環境變數裡 4.命令列輸入 ffmpeg version 進行驗證 from pydub import audioseg...
音訊編碼技術G 729與G 711
voip中g.729與g.711的部分資料 由於用上了voip閘道器裝置,在設定介面裡關於語音壓縮的設定裡有5種標準可選,分別是g.711 ulaw g.711 alaw g.723 53k g.723 63k g729,g.711和g.729是企業voip部署中非常流行的兩種編解碼器。與通過g.7...