常用有話幀檢測技術(VAD)

2021-08-20 07:41:47 字數 915 閱讀 4191

前言

總結一下基本的有話幀檢測(voice activity detection, vad)技術,基於神經網路的待後面梳理完神經網路的理論後再作整理。

一、雙門限

這是一種boosting的思路,即:兩個弱分類器可以組合更強的分類器,依次類推,三、四門限其實都可。每一種門限對應一種判決準則。

基本的雙門限:短時能量+短時過零率,其原理是母音能量較大,用短時平均能量檢測,子音頻率較高,用短時平均過零率檢測。

考慮到雜訊的影響,通常作平滑處理。如:中值濾波,medfilt.

二、相關

該演算法通過計算訊號的相關係數,主要利用訊號、雜訊相關係數的差異性。依次擴充套件的方法包括:1)最大端點檢測;2)利用相關函式的歸一化r,主/副峰比值;3)音訊的相關函式具有一定的週期性,可以轉換成余弦求解→自相關函式余弦角值的端點檢測。

三、方差

語音與雜訊在頻譜域中差異大,有話幀:隨頻帶變化較大,雜訊變化較小,此類方法推廣的應用:1)均勻子帶劃分;2)bark子帶劃分;3)小波包bark子帶。

四、譜熵

熵是衡量不確定性的量度,雜訊在頻譜分布較均勻,熵較大;語音分布不均勻,熵較小,歸一化的能量得到概率密度,依此計算出熵,利用該原理可以實現vad檢測。

五、能零比和能熵比

能零比:短時能量與短時過零率的比值;

能熵比:短時能量與譜熵的比值。

六、其他方法

emd的端點檢測,本質是降噪+vad檢測,丟棄emd分解的高頻分量,對剩餘的imf分量進行vad檢測。

小波變換與基於emd的方法大同小異。

常用有話幀檢測技術(VAD)

前言 總結一下基本的有話幀檢測 voice activity detection,vad 技術,基於神經網路的待後面梳理完神經網路的理論後再作整理。一 雙門限 這是一種boosting的思路,即 兩個弱分類器可以組合更強的分類器,依次類推,三 四門限其實都可。每一種門限對應一種判決準則。基本的雙門限...

常用有話幀檢測技術(VAD)

前言 總結一下基本的有話幀檢測 voice activity detection,vad 技術,基於神經網路的待後面梳理完神經網路的理論後再作整理。一 雙門限 這是一種boosting的思路,即 兩個弱分類器可以組合更強的分類器,依次類推,三 四門限其實都可。每一種門限對應一種判決準則。基本的雙門限...

垃圾話檢測相關技術總結

方法一 馬爾科夫鏈參考原始碼 在機器學習演算法中,馬爾可夫鏈 markov chain 是個很重要的概念。馬爾可夫鏈 markov chain 又稱離散時間馬爾可夫鏈 discrete time markov chain 為狀態空間中經過從乙個狀態到另乙個狀態的轉換的隨機過程。該過程要求具備 無記憶...