探秘身份認證利器 聲紋識別!

2021-09-07 08:10:15 字數 2791 閱讀 2639

各種生物特徵比較

聲紋是指人類語音中攜帶言語資訊的聲波頻譜,它同指紋一樣,具備獨特的生物學特徵,具有身份識別的作用,不僅具有特定性,而且具有相對的穩定性。聲音頻號是一維連續訊號,將它進行離散化後,就可以得到我們現在常見的計算機可以處理的聲音頻號。

計算機可以處理的離散聲音頻號

聲紋識別(也稱說話人識別)技術也如同現在在智慧型手機上應用十分廣泛的指紋識別技術一樣,從說話人發出的語音頻號中提取語音特徵,並據此對說話人進行身份驗證的生物識別技術。每個人都具有獨一無二的聲紋,這是由我們的發聲器官在成長過程中逐漸形成的特徵。無論別人對我們的說話模仿的多麼相似,聲紋其實都是具有顯著區別的。

現實生活中的「未見其人,先聞其聲」就是人類通過聲音去識別另乙個人身份的真實描述,你媽甚至通過你**裡的乙個「喂」字就知道是你,而不是隔壁老王家的兒子打的**,這是我們人類經過長期進化所獲得到的超常的能力。雖然目前計算機還做不到通過乙個字就判斷出人的身份,但是利用大量的訓練語音資料,可以學出乙個「智商」還不錯的「聲紋」大腦,它在你說出8-10個字的情況下可以判斷出是不是你在說話,或者在你說1分鐘以上的話後,就可以準確地判斷出你是否是給定的1000人中的一員。這裡面其實包含了大部分生物識別系統都適用的重要概念:1:1 和 1:n,同時也包含了只有在聲紋識別技術中存在的獨特的概念:內容相關和內容無關。

對於乙個生物識別系統而言,如果它的工作模式是需要你提供自己的身份(賬號)以及生物特徵,然後跟之前儲存好的你本人的生物特徵進行比對,確認兩者是否一致(即你是不是你),那麼它是乙個1:1的識別系統(也可以叫說話人確認,speaker verification);如果它只需要你提供生物特徵,然後從後台多條生物特徵記錄中搜尋出哪個是你(即你是誰),或者哪個都不是你,那麼它是乙個1:n的識別系統(也可以叫辨認,speaker identification),見圖1。技術上,簡單的聲紋識別的系統工作流程圖來見圖2。

圖1 說話人確認和說話人辨認

圖2 聲紋識別工作流程圖

對於聲紋識別系統而言,如果從使用者所說語音內容的角度出發,則可以分為內容相關和內容無關兩大類技術。顧名思義,「內容相關」就是指系統假定使用者只說系統提示內容或者小範圍內允許的內容,而「內容無關」則並不限定使用者所說內容。前者只需要識別系統能夠在較小的範圍內處理不同使用者之間的聲音特性的差異就可以,由於內容大致類似,只需要考慮聲音本身的差異,難度相對較小;而後者由於不限定內容,識別系統不僅需要考慮使用者聲音之間的特定差異,還需要處理內容不同而引起的語音差異,難度較大。

目前有一種介於兩者之間的技術,可以稱之為「有限內容相關」,系統會隨機搭配一些數字或符號,使用者需正確唸出對應的內容才可識別聲紋,這種隨機性的引入使得文字相關識別中每一次採集到的聲紋都有內容時序上的差異,這種特性正好與網際網路上廣泛存在的短隨機數字串(如數字驗證碼)相契合,可以用來校驗身份,或者和其他人臉等生物特徵結合起來組成多因子認證手段。

具體到聲紋識別演算法的技術細節,在特徵層面,經典的梅爾倒譜係數mfcc,感知線性**係數plp、深度特徵deep feature、以及能量規整譜係數pncc 等,都可以作為優秀的聲學特徵用於模型學習的輸入,但使用最多的還是mfcc特徵,也可以將多種特徵在特徵層面或者模型層面進行組合使用。在機器學習模型層面,目前還是n.dehak在2023年提出的ivector框架一統天下,雖然在深度學習大紅大紫的今天,聲紋領域也難免被影響,在傳統的ubm-ivector框架下衍化出了dnn-ivector,也僅僅是使用dnn(或者bn)提取特徵代替mfcc或者作為mfcc的補充,後端學習框架依然是ivector。

圖3示出了乙個完整的聲紋識別系統的訓練和測試流程,可以看到在其中ivector模型的訓練以及隨後的通道補償模型訓練是最重要的環節。在特徵階段,可以使用bottleneck特徵取代或者補充mfcc特徵,輸入到ivector框架中訓練模型,如圖4所示。

圖3 聲紋識別演算法的完整訓練和識別框架

圖4 使用bottleneck特徵訓練ivector模型

在系統層面,不同的特徵及模型,可以從不同的維度刻畫說話人的聲音特徵,加上有效的分數規整,將各子系統融合能有效的提高系統的整體效能。

在此次的阿里聚安全攻防挑戰賽,參賽選手便可以真實的感受這一過程。

由阿里巴巴集團安全部主辦的「阿里聚安全攻防挑戰賽」即日起在天池平台開始報名。據了解此模擬賽已成功舉辦過兩屆,並逐漸成為安全行業經典賽事品牌,主要是讓參賽選手真實的挑戰阿里巴巴移動安全和業務安全的防禦。

本屆挑戰賽的最大亮點之一就是聲紋身份驗證攻防。參賽者可以嘗試用聲音攻擊一套聲紋驗證系統,通過設計攻擊用的音訊騙過聲紋驗證系統,讓系統驗證成功。

探秘身份認證利器 聲紋識別!

各種生物特徵比較 聲紋是指人類語音中攜帶言語資訊的聲波頻譜,它同指紋一樣,具備獨特的生物學特徵,具有身份識別的作用,不僅具有特定性,而且具有相對的穩定性。聲音頻號是一維連續訊號,將它進行離散化後,就可以得到我們現在常見的計算機可以處理的聲音頻號。計算機可以處理的離散聲音頻號 聲紋識別 也稱說話人識別...

聲紋識別調研

聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...

d vector聲紋識別基礎

dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...