5. 聲紋識別的技術指標
6. 影響聲紋識別水平的因素
初識聲紋
(1)verification 和 identification
與人臉識別類似,聲紋識別有人聲驗證和人聲識別兩類應用場景(漢語可能不準確,以英文為準)
(2)text-dependent 和text-independent
在識別(identification)應該場景下,還有文字相關的(text-dependent)和文字無關的(text-independent)兩種。
(3)open-set 和 close-set
顯然,閉集辨認需要有乙個對集外說話人的「拒識問題」,而且閉集辨認的結果要好於開集辨認結果。本質上講,說話人確認和開集說話人辨認都需要用到拒識技術,為了達到很好的拒識效果,通常需要訓練乙個假冒者模型或背景模型,以便拒識時有可資比較的物件,閾值容易選定。而建立背景模型的好壞直接影響到拒識甚至聲紋識別的效能。乙個好的背景模型,往往需要通過預先採集好的若干說話人的資料,通過某種演算法去建立。
人聲差異的主要方面:
不同人的聲音在語譜圖中共振峰的分布情況不同,聲紋識別正是通過比對兩段語音的說話人在相同音素上的發聲來判斷是否為同乙個人,從而實現「聞聲識人」的功能。
聲紋識別可以說有兩個關鍵問題,一是特徵提取,二是模式匹配(模式識別)。
特徵提取的任務是提取並選擇對說話人的聲紋具有可分性強、穩定性高等特性的聲學或語言特徵。
大部分聲紋識別系統用的都是聲學層面的特徵,但是表徵乙個人特點的特徵應該是多層面的,包括:從利用數學方法可以建模的角度出發,聲紋自動識別模型可以使用的特徵包括:(1)與人類的發音機制的解剖學結構有關的聲學特徵(如頻譜、倒頻譜、共振峰、基音、反射係數等等)、鼻音、帶深呼吸音、沙啞音、笑聲等;
(2)受社會經濟狀況、受教育水平、出生地等影響的語義、修辭、發音、言語習慣等;
(3)個人特點或受父母影響的韻律、節奏、速度、語調、音量等特徵。
(1)聲學特徵(倒頻譜);
(2)詞法特徵(說話人相關的詞n-gram,音素n-gram);
(3)韻律特徵(利用n-gram描述的基音和能量「姿勢」);
(4)語種、方言和口音資訊;
(5)通道資訊(使用何種通道);等等。
更多:mfcc特徵(梅爾頻率倒譜係數)提取
語音頻號是連續不斷的值,無法直接用於建模,當然現在火熱的dnn模型已經不需要提取特徵啥的。mfcc特徵(梅爾頻率倒譜係數)是一種在自動語音和說話人識別中廣泛使用的特徵。主要提取流程如下:
1、對語音進行預加重、分幀和加窗;(加強語音頻號效能(訊雜比,處理精度等)的一些預處理)
2、對每乙個短時分析窗,通過快速傅利葉變化fft得到對應的頻譜;(獲得分布在時間軸上不同時間窗內的頻譜)
3、將上面的頻譜通過mel濾波器組得到mel頻譜;(通過mel頻譜,將線形的自然頻譜轉換為體現人類聽覺特性的mel頻譜)
4、在mel頻譜上面進行倒譜分析(取對數,做逆變換,實際逆變換一般是通過dct離散余弦變換來實現,取dct後的第2個到第13個係數作為mfcc係數),獲得mel頻率倒譜係數mfcc,這個mfcc就是這幀語音的特徵;(倒譜分析,獲得mfcc作為語音特徵)
最終語音就可以通過一系列的倒譜向量來描述了,每個向量就是每幀的mfcc特徵向量。當日還有filterbank(fbank)也是一種提取特徵的方法,沒有做過log和dct的就是fbank特徵。
對於模式識別,有以下幾大類方法:
(2)最近鄰方法:訓練時保留所有特徵向量,識別時對每個向量都找到訓練向量中最近的k個,據此進行識別,通常模型儲存和相似計算的量都很大;
(3)神經網路方法:有很多種形式,如多層感知、徑向基函式(rbf)等,可以顯式訓練以區分說話人和其背景說話人,其訓練量很大,且模型的可推廣性不好;
(4)隱式馬爾可夫模型(hmm)方法:通常使用單狀態的hmm,或高斯混合模型(gmm),是比較流行的方法,效果比較好;
(5)vq聚類方法(如lbg):效果比較好,演算法複雜度也不高,和hmm方法配合起來更可以收到更好的效果;
(6)多項式分類器方法:有較高的精度,但模型儲存和計算量都比較大;
(7)……
影響聲紋識別水平的兩個重要因素:
人類語音的頻段集中於50hz ~ 8khz之間,尤其在4khz以下頻段離散訊號覆蓋頻段為訊號取樣率的一半(奈奎斯特取樣定理)
取樣率越高,資訊量越大
常用取樣率:8khz (即0 ~ 4khz頻段),16khz(即0 ~ 8khz頻段)
訊雜比衡量一段音訊中語音頻號與雜訊的能量比,即語音的乾淨程度15db以上(基本乾淨),6db(嘈雜),0db(非常吵)
通俗地說,聲紋識別系統通過比對兩段語音的說話人在相同音素上的發聲來判斷是否為同乙個人參考:固定文字:註冊與驗證內容相同
半固定文字:內容一樣但順序不同;文字屬於固定集合
自由文字
聲紋識別知識整理
ai老司機帶你認識聲音黑科技:聲紋識別
語音識別從入門到放棄
聲紋識別概述(2)聲紋識別原理和過程
多看 聲紋識別技術簡介 化繁為簡的藝術,深入淺出了解聲紋識別。1 困難在哪?不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同 那要如何區分出是兩個不同人的語音?2 為什麼可識別?語音具備了乙個良好的性質,稱為短時平穩,在...
聲紋識別調研
聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...
d vector聲紋識別基礎
dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...