多看:聲紋識別技術簡介——化繁為簡的藝術,深入淺出了解聲紋識別。
1、困難在哪?
不同的人說話語音波形不同,但是相同的人用不同的語調或者在不同的身體狀態下說話其語音波形也不同,還有相同的人說不同的內容波形也不同…那要如何區分出是兩個不同人的語音?
2、為什麼可識別?
語音具備了乙個良好的性質,稱為短時平穩,在乙個20-50毫秒的範圍內,語音近似可以看作是良好的週期訊號
3、最重要的特徵?
在音調,響度和音色這三個聲音(注意,這裡我用了聲音,而不是語音)的基本屬性中,音色是最能反映乙個人身份資訊的屬性。
待看:聲紋識別,了解具體演算法的演變。
如何理解plda(概率線性判別分析,probabilistic linear discriminant analysis)
:聲紋識別之plda
說話人識別的大致發展流程:gmm | gmm-ubm | jfa | i-vector | i-vector + plda | deep learning
(已逐漸成為主流)
按照說話人識別的大致流程做乙個簡要的梳理,大方向上可以分為傳統的方法和深度學習的方法。↓
↓ ↓ ↓
↓ 參考:
《kaldi語音識別實戰》
聲紋識別
聲紋識別調研
聲紋 voiceprint 是用電聲學儀器顯示的攜帶言語資訊的聲波頻譜。現代科學研究表明,聲紋不僅具有特定性,而且有相對穩定性的特點。成年以後,人的聲音可保持長期相對穩定不變。實驗證明,無論講話者是故意模仿他人聲音和語氣,還是耳語輕聲講話,即使模仿得惟妙惟肖,其聲紋卻始終不相同。聲紋識別的主要任務包...
聲紋識別概述(1)初識
5.聲紋識別的技術指標 6.影響聲紋識別水平的因素 初識聲紋 1 verification 和 identification 與人臉識別類似,聲紋識別有人聲驗證和人聲識別兩類應用場景 漢語可能不準確,以英文為準 2 text dependent 和text independent 在識別 ident...
d vector聲紋識別基礎
dnn訓練好後,提取每一幀語音的filterbank energy 特徵作為dnn輸入,從last hidden layer提取activations,l2正則化,然後將其累加起來,得到的向量就被稱為d vector。如果乙個人有多條enroll語音,那麼所有這些d vectors做平均,就是這個人...