聲紋識別,聽聲辨人

2021-03-31 08:56:58 字數 2550 閱讀 1075

近年來,在生物識別技術領域中,聲紋識別技術以其獨特的方便性、經濟性和準確性等優勢受到世人矚目,並日益成為人們日常生活和工作中重要且普及的安全驗證方式。

聲紋識別屬於生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特徵的語音引數,自動識別說話人身份的技術。與語音識別不同的是,聲紋識別利用的是語音頻號中的說話人資訊,而不考慮語音中的字詞意思,它強調說話人的個性;而語音識別的目的是識別出語音頻號中的言語內容,並不考慮說話人是誰,它強調共性。 聲紋識別系統主要包括兩部分,即特徵檢測和模式匹配。特徵檢測的任務是選取唯一表現說話人身份的有效且穩定可靠的特徵,模式匹配的任務是對訓練和識別時的特徵模式做相似性匹配。

1.特徵提取

聲紋識別系統中的特徵檢測即提取語音頻號中表徵人的基本特徵,此特徵應能有效地區分不同的說話人,且對同一說話人的變化保持相對穩定。考慮到特徵的可量化性、訓練樣本的數量和系統效能的評價問題,目前的聲紋識別系統主要依靠較低層次的聲學特徵進行識別。說話人特徵大體可歸為下述幾類:

譜包絡引數語音資訊通過濾波器組輸出,以合適的速率對濾波器輸出抽樣,並將它們作為聲紋識別特徵。

基音輪廓、共振峰頻率頻寬及其軌跡 這類特徵是基於發聲器官如聲門、聲道和鼻腔的生理結構而提取的引數。

線性**係數使用線性**係數是語音頻號處理中的一次飛躍,以線性**匯出的各種引數,如線性**係數、自相關係數、反射係數、對數面積比、線性**殘差及其組合等引數,作為識別特徵,可以得到較好的效果。主要原因是線性**與聲道引數模型是相符合的。

反映聽覺特性的引數模擬人耳對聲音頻率感知的特性而提出了多種引數,如美倒譜係數、感知線性**等。

此外,人們還通過對不同特徵參量的組合來提高實際系統的效能,當各組合參量間相關性不大時,會有較好的效果,因為它們分別反映了語音頻號的不同特徵。

2.模式匹配

目前針對各種特徵而提出的模式匹配方法的研究越來越深入。這些方法大體可歸為下述幾類:

概率統計方法

語音中說話人資訊在短時內較為平穩,通過對穩態特徵如基音、聲門增益、低階反射係數的統計分析,可以利用均值、方差等統計量和概率密度函式進行分類判決。其優點是不用對特徵參量在時域上進行規整,比較適合文字無關的說話人識別。

動態時間規整方法

說話人資訊不僅有穩定因素(發聲器官的結構和發聲習慣),而且有時變因素(語速、語調、重音和韻律)。將識別模板與參考模板進行時間對比,按照某種距離測定得出兩模板間的相似程度。常用的方法是基於最近鄰原則的動態時間規整dtw。

向量量化方法

向量量化最早是基於聚類分析的資料壓縮編碼技術。helms首次將其用於聲紋識別,把每個人的特定文字編成碼本,識別時將測試文字按此碼本進行編碼,以量化產生的失真度作為判決標準。bell實驗室的rosenberg和soong用vq進行了孤立數字文字的聲紋識別研究。這種方法的識別精度較高,且判斷速度快。

隱馬爾可夫模型方法

隱馬爾可夫模型是一種基於轉移概率和傳輸概率的隨機模型,最早在cmu和ibm被用於語音識別。它把語音看成由可觀察到的符號串行組成的隨機過程,符號串行則是發聲系統狀態序列的輸出。在使用hmm識別時,為每個說話人建立發聲模型,通過訓練得到狀態轉移概率矩陣和符號輸出概率矩陣。識別時計算未知語音在狀態轉移過程中的最大概率,根據最大概率對應的模型進行判決。hmm不需要時間規整,可節約判決時的計算時間和儲存量,在目前被廣泛應用。缺點是訓練時計算量較大。

人工神經網路方法

人工神經網路在某種程度上模擬了生物的感知特性,它是一種分布式並行處理結構的網路模型,具有自組織和自學習能力、很強的複雜分類邊界區分能力以及對不完全資訊的魯棒性,其效能近似理想的分類器。其缺點是訓練時間長,動態時間規整能力弱,網路規模隨說話人數目增加時可能大到難以訓練的程度。

把以上分類方法與不同特徵進行有機組合可顯著提高聲紋識別的效能,如ntt實驗室的t. matsui和s. furui使用倒譜、差分倒譜、基音和差分基音,採用vq與hmm混和的方法得到99.3%的說話人確認率。

對於說話人確認系統,表徵其效能的最重要的兩個參量是錯誤拒絕率和錯誤接受率。前者是拒絕真實的說話人而造成的錯誤,後者是接受假冒者而造成的錯誤,二者與閾值的設定相關。說話人確認系統的錯誤率與使用者數目無關,而說話人辨認系統的效能與使用者數目有關,並隨著使用者數目的增加,系統的效能會不斷下降。

總的說來,乙個成功的說話人識別系統應該做到以下幾點:

能夠有效地區分不同的說話人,但又能在同一說話人語音發生變化時保持相對的穩定,如感冒等情況。

不易被他人模仿或能夠較好地解決被他人模仿問題。

在聲學環境變化時能夠保持一定的穩定性,即抗雜訊效能要好

聲紋識別應用前景

與其他生物識別技術,諸如指紋識別、掌形識別、虹膜識別等相比較,聲紋識別除具有不會遺失和忘記、不需記憶、使用方便等優點外,還具有以下特性:

使用者接受程度高,由於不涉及隱私問題,使用者無任何心理障礙。

利用語音進行身份識別可能是最自然和最經濟的方法之一。聲音輸入裝置造價低廉,甚至無費用(**),而其他生物識別技術的輸入裝置往往造價昂貴。

在基於電信網路的身份識別應用中,如**銀行、****、電子購物等,與其他生物識別技術相比,聲紋識別更為擅長,得天獨厚。

由於與其他生物識別技術相比,聲紋識別具有更為簡便、準確、經濟及可擴充套件性良好等眾多優勢,可廣泛應用於安全驗證、控制等各方面,特別是基於電信網路的身份識別。

聲紋識別調研

聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...

d vector聲紋識別基礎

dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...

聲紋識別概述(2)聲紋識別原理和過程

多看 聲紋識別技術簡介 化繁為簡的藝術,深入淺出了解聲紋識別。1 困難在哪?不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同 那要如何區分出是兩個不同人的語音?2 為什麼可識別?語音具備了乙個良好的性質,稱為短時平穩,在...