dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d-vector。如果乙個人有多條enroll語音,那麼所有這些d-vectors做平均,就是這個人的representation。dnn的網路結構如圖1.2所示。
圖1.2 用於提取d-vector的dnn模型
因為d-vector是從last hidden layer提取的,通過移除softmax layer,可以縮減model size。而且,這也可以讓我們在不改變model size的情況下,在訓練過程中使用更多的說話人資料來做訓練(因為softmax layer被移除了,不用考慮softmax layer的節點數)。dnn的訓練過程,可以詳細閱讀參考文獻[3]。
max-out層
聲紋識別調研
聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...
聲紋識別概述(2)聲紋識別原理和過程
多看 聲紋識別技術簡介 化繁為簡的藝術,深入淺出了解聲紋識別。1 困難在哪?不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同 那要如何區分出是兩個不同人的語音?2 為什麼可識別?語音具備了乙個良好的性質,稱為短時平穩,在...
聲紋識別,聽聲辨人
近年來,在生物識別技術領域中,聲紋識別技術以其獨特的方便性 經濟性和準確性等優勢受到世人矚目,並日益成為人們日常生活和工作中重要且普及的安全驗證方式。聲紋識別屬於生物識別技術的一種,是一項根據語音波形中反映說話人生理和行為特徵的語音引數,自動識別說話人身份的技術。與語音識別不同的是,聲紋識別利用的是...