1. 背景介紹
波束形成是個很有意思的方向,應用從雷達領域到5g領域,近幾年在語音識別領域也大放光彩。本文主要聚焦於波束形成在語音領域的應用。
對於單麥克風來說,沒有波束的概率;波束形成主要針對多麥克風陣列,融合多個通道的資料,對雜訊和干擾方向進行抑制,增強目標方向的訊號。
一種方式是找到目標訊號的方向,一般用導向向量(steering vector)進行表示,基於此增強目標訊號;
一種方式是找到干擾訊號的方向,進行抑制,剩下的就是目標訊號。
2. 多通道訊號的公式描述
圖1:m個麥克組成的線性陣列
觀察訊號的數學表達(頻域形式)如下,這裡的
表示連續兩個麥克風之間的相位差
其實用
3. 傳統波束形成(delay-and-sum和filter-and-sum)
delay-and-sum: 傳統的波束形成可以描述為乙個空間濾波器,用該濾波器構建乙個特定的波束方向圖;可以分解為兩步:時間對其和加權求和。時間對齊的物理意義在於,某一固定方向訊號,傳遞到麥克風陣列時,不同麥克之間存在相位差,將訊號理解為波,讓波對齊,再加權求和就起到了增加訊號的作用。時間對齊控制著波束方向,加權求和控制著主瓣的波束寬度和旁瓣的特性。
filter-and-sum: 它是上述delay-and-sum的擴充套件,將簡單的delay操作用濾波filter操作代替,更具擴充套件性。
4.1 傳統mvdr
陣列採集訊號:
目標:得到訊號源
無畸變約束保證語音不失真,最小輸出功率保證干擾雜訊被最小化。
轉換成帶經典約束條件的凸優化問題:
最優解
需要計算出導向向量
mvdr是一種自適應波束形成器, 而delay-and-sum是固定波束形成器。當各個通道的雜訊互不相關, 並且具有相同功率的時候, mvdr退化成delay-and-sum。如果雜訊是乙個點聲源, mvdr會自適應地在雜訊方向形成乙個零點。
4.2 融入深度學習的mvdr
引入深度學習的目的:更好的估計目標訊號或雜訊訊號的協方差矩陣。
ø四步走
:nn估計頻譜
mask -->
計算空間協方差矩陣 -->計算導向向量-->
計算波束形成權重
阻塞矩陣:為產生只包含雜訊的訊號
自適應雜訊相消器:用於消除固定波束形成中的雜訊訊號
參考資料
[1] fundamentals of signal enhancement and array signal processing
[2] 麥克風陣列訊號處理
基於小波變換的語音增強演算法簡單綜述
語音通訊是人類傳播資訊,進行交流時使用最多 最自然 最基本的一種手段。而這種通訊中的資訊載體 語音頻號卻是一種時變的 非平穩的訊號,只有在很短的一段時間內 通常為10 30ms 才被認為是平穩的。在語音的產生 處理和傳輸過程中,不可避免地會受到環境雜訊的干擾,使得語音頻號處理系統,如語音編碼和語音識...
關於語音增強的一點小筆記
1 什麼是白雜訊 有色雜訊?白雜訊 功率譜密度在整個頻帶上是均勻分布的。有色雜訊 除了白雜訊以外的雜訊 粉紅雜訊 1 f雜訊,功率譜密度隨頻率的公升高而減少 2 雜訊分類?雜訊分為加性雜訊和非加性雜訊,一般非加性雜訊可以轉換為加性雜訊。加性雜訊包括 週期性雜訊 脈衝雜訊 寬頻雜訊 同頻帶語音干擾。非...
小公尺王育軍 小愛背後的小公尺語音技術
不到現場,照樣看最乾貨的學術報告!報告內容 語音技術,包括語音識別與合成等,經歷了幾十年的發展,隨著算力,資料,開源,人才的爆發,結合使用者場景的重新定義,而再次活躍於使用者的視野。小公尺的語音快速地借助 彎道 達到了80分的成績,但也無法避免進入到了語音鍋碗瓢盆的 平凡生活 我們必須要面對失配和不...