語音增強原理之增益因子

上次關於語音增強的原理講說了雜訊估計問題，這次打算說下增益因子如何確定，也就是當雜訊已知後，如何進行去噪的問題（把增益因子與帶噪語音相乘即可）。這裡主要說下mmse濾波，順帶說下譜減法、維納濾波。當然也有其它方式來實現語音增強的，比如基於矩陣分解原理的子空間法、基於自適應濾波器的降噪，有的方法icoolmedia比較清楚，有的也還在學習之中，同時也歡迎各位朋友就不足之處批評指正。

先說下經典的譜減法。我們還是假設帶噪語音y(n)由純淨語音x(n)和加性雜訊d(n)組成，其時域表示與頻域表示為 y

(n)=

x(n)

+d(n

)y(ω

)=x(

ω)+d

(ω)

在語音增強領域中，最常使用的是頻域功率譜形式，那麼，帶噪語音的功率譜可以表示為y與其共軛相乘，展開可得 |

y(ω)

|2=[

x(ω)

+d(ω

)][x

∗(ω)

+d∗(

ω)]=

|x(ω

)|2+

|d(ω

)|2+

x(ω)

d∗(ω

)+x∗

(ω)d

(ω)=

|x(ω

)|2+

|d(ω

)|2+

2re展開式的第三項被稱為交叉項，當純淨語音與加性雜訊不相關時，交叉項為0，那麼，當我們已經估計出雜訊訊號的功率譜時，純淨語音頻號的估值就可以表示為 |

x^(ω

)|2=

|y(ω

)|2−

|d^(

ω)|2

根據線性濾波理論，可以將這個濾波過程建模為 |

x^(ω

)|2=

h2(ω

)|y(

ω)|2

綜合以上兩式，h可以表示為 h

(ω)=

|x^(

ω)|2

|y(ω

)|2−

−−−−

−−⎷

=|

y(ω)

|2−|

d^(ω

)|2|

y(ω)

|2−−

−−−−

⎷

=1−|

d^(ω

)|2|

y(ω)

|2−−

−−−−

⎷

這裡的h，就是線性濾波系統的傳遞函式，在語音增強領域，通常也稱為增益函式/抑制函式、或者增益因子/抑制因子，都是是同乙個意思。另外，要注意，上面的這個增益因子表示只是乙個理想的過程。因為當從帶噪語音中減去估計雜訊後，總會遺留一些或長或短的小譜峰，這些譜峰比較影響聽感。這種現象就是出現了**雜訊。因此，如果譜減法要實際使用時，必須做如下改變。

經過這兩方面的改變，譜減法具有如下形式： |

x^(ω

)|2=

p(xx

,θk)

=xkπ

λk(k

)exp

代入mmse估計器中，我們最終得到mmse幅度譜估計器（推導過程請參考：語音增強-理論與實踐中的附錄b） x

^k=v

k−−√

γkγ(

1.5)φ(

−0.5,1

;−vk

)yk

其中，γ(.)為伽馬函式，φ（a,b;c)為合流超幾何函式，ξ為先驗訊雜比、最後乙個式子為後驗訊雜比。 v

k=ξk

1+ξk

γkξk

=λx(

k)λd

(k)γ

k=y2

kλd(

k)最後，把合流超幾何函式寫成貝塞爾函式的形式，我們就得到了最終的mmse估計器的表示式： x

^k=π

√2vk

−−√γ

kexp(−

vk2)

[(1+

vk)i

0(vk

2)+v

ki1v

k2]y

如果我們定義： g

(ξk,

γk)=

x^ky

k=π√

2vk−

−√γk

exp(−v

k2)[

(1+v

k)i0

(vk2

)+vk

i1vk

2]的話，這裡g就是我們要求的mmse幅度估計器的增益。

另外想說一下，mmse估計的推導思路我弄明白了，主要是通過參考《語音增強-理論與實踐》、《統計訊號處理基礎-估計與檢測理論》這兩本書做到的，但關於合流超幾何函式與貝塞爾函式的推導內容還沒完全搞明白，如果不是對理論推導過程非常感興趣的話，這裡也沒有必要深究，只要會使用這個結果就行了。

使用mmse做語音增強，經典的出處應該是speech enhancement using minimum mean-square error這篇**，但裡面講的並不詳細，這裡盡可能的給出能讓大家理解流程的推導。當然，如果感興趣的話，icoolmedia還是推薦大家最好都認真看一遍上面提到的資料。

語音增強原理之增益因子

DNN語音增強實現

語音增強國外牛人

語音增強的幾個基本演算法

語音增強原理之增益因子

DNN語音增強實現

語音增強國外牛人

語音增強的幾個基本演算法

相關推薦