說話人識別模型 GMM UBM

2021-08-26 05:16:22 字數 1381 閱讀 4231

文中包含筆者在某語音公司實習期間撰寫的說話人識別的完整過程介紹,包括音訊語料預處理,模型搭建和訓練以及未知音訊**等,可以作為試驗復現的藍本.

1 聲紋能作為判別不同人的依據是什麼

每個人的聲音都有獨特的特徵,這個特徵由兩個音素決定:

1 聲腔的尺寸

2 發聲器官被操縱的方式(比如聲帶上的肌肉運動)

這些因素使得聲音變得獨一無二

2 簡述一下說話人識別流程

先進行特徵提取,然後訓練模型,最後是打分判決.

這其中特徵提取包括 預加重,分幀加窗,傅利葉變換得到頻譜圖,之後再進行mel濾波使頻譜圖更緊湊,最後進行倒譜分析(取對數和離散余弦變換)和差分(提供一種動態特徵)的到mfcc特徵向量.

3 什麼是混合高斯模型gmm

gmm就是由多個單高斯分布混合而成的乙個模型

1 為什麼要混合呢,因為單個分布的話擬合能力不夠

2 為什麼要高斯呢,因為高斯分布有很好的計算性質,因為他有乙個自然數e嘛,那很自然就可以取對數將乘法變成加法,同時呢,高斯分布也有很好的理論支撐,從中心極限定理可知,如果取樣最夠多的話,n個取樣的平均值x拔會符合高斯分布,他的均值就是變數的均值,方差等於變數方差/n,那麼只要n足夠大,就可以用平均數的高斯分布去近似隨機變數的高斯分布.

4 什麼是通用背景模型ubm

ubm相當於乙個大的混合高斯分布模型,他是為了解決目標使用者訓練資料太少的問題,用大量非目標使用者資料訓練出乙個擬合通用特徵的大型gmm

5 什麼是最大似然估計

最大似然估計是一種反推,就是你只已經知道模型了,同時你也有了觀測資料,但是模型的引數是未知的,這時候我肯定是算不出來準確的引數值的,那我可以把產生當前觀測資料的可能性最大的引數當作估計值,這就是最大似然的含義,也就是最大可能性.

6 em演算法

em演算法的關鍵思想就是迭代求解.他有兩個關鍵的步驟:期望步和最大化,期望的話就是說先用上一輪迭代得到的引數計算出隱性變數(無法直接觀測到的變數,比如統計身高分布,某個人是男是女無法觀測到)的期望,最大步就是使用最大似然估計和這個期望值來算出新的引數.

在混合高斯模型中,這個隱性變數實際上是描述資料由那個子高斯分布取樣得到的,那他的期望實際上就是被某個子分布生成的概率

7 gmm-ubm模型

先使用大量的非目標使用者資料訓練ubm,然後使用map自適應演算法和目標說話人資料來更新區域性引數得到對應的gmm.

map自適應演算法相當於先進性一輪em迭代得到新的引數,然後將新引數和舊引數整合

說話人識別參考書 待更新

韓紀慶,2013,第二版,語音頻號處理,第7章,說話人識別,大概40頁 京東上已經有第三版了 fundamentals.of.speaker.recognition,homayoon.beigi,springer,2011,900多頁 gmm ubm,i vector,plda,d vector,x...

使用 sndpeek 識別說話者

使用 sndpeek 和自定義演算法在預先錄製的庫中尋找匹配的語音。建立應用程式幫助您識別 會議 podcast 和新聞直播中的說話者。構建基本的輔助程式以幫助有聽力障礙的人士在頻寬有限的環境中識別說話者。通過聲波紋實現 可靠的身份驗證十分複雜和困難。但是,sndpeek 和一些自定義演算法可以提供...

你說話讓人很累嗎

01 我特別喜歡跟 說話不累的人 交往。這種人,要麼特別聰明,一點就通,你說個開頭他立刻就能領會接下來的意思,特別有那種 心有靈犀 的感覺 要麼特別真誠,讓你可以知無不言言無不盡,不用千轉百回費盡心機 還有些呢,溝通技巧未必有多高,但貴在簡單直白,直奔主題,特別好。跟說話不累的人交往 合作或者談戀愛...