1、語音識別實現原理:資料庫
概括的說,語音識別的原理其實並不難理解,原理上和指紋識別的原理相同:裝置收集目標語音,然後對收集到的語音進行一系列處理,得到目標語音的特徵資訊,然後讓特徵資訊與資料庫中已存資料進行相似度搜尋比對,評分高者即為識別結果。然後通過其他系統的接入來完成裝置的語音識別功能。
如果你對語音識別的興趣不高,那麼知道這樣的大致原理已經足夠。事實上,語音識別的過程是相當複雜的。最直接的原因就在於語音的複雜性。指紋識別只要錄入的指紋資訊與資料庫中的已存資訊匹配就可以完成識別,這個資料庫包含的資料只有幾個指紋資訊而已。但語音就完全不同了。
2、語音識別實現原理:演算法和自學習
剛才我們提到了識別提取演算法和自學習系統,在這裡我們不妨簡單了解一下它們的工作過程:首先語音識別系統對收集到的目標語音進行預處理,這個過程就已經十分複雜,包含語音頻號取樣、反混疊帶通濾波、去除個體發音差異和裝置、環境引起的雜訊影響等等。之後對處理的語音進行特徵提取。
我們知道,聲音的本質是震動,它可以由波形表示,識別則需要對波進行分幀,多個幀構成乙個狀態,三個狀態構成乙個音素。英語常用音素集是卡內基梅隆大學的一套由39個音素構成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還分有調音調。之後通過音素系統合成單詞或者漢字。當然,之後的匹配和後期內容處理也需要相應演算法來完成。
自學習系統則更多的是針對資料庫來說。將語音轉換成文字的語音識別系統要有兩個資料庫,一是可與提取出的資訊進行匹配的聲學模型資料庫,二是可與之匹配的文字語言資料庫。這兩個資料庫需要提前對大量資料機型訓練分析,也就是所說的自學習系統,從而提取出有用的資料模型構成資料庫;另外,在識別過程中,自學習系統會歸納使用者的使用習慣和識別方式,然後將資料歸納到資料庫,從而讓識別系統對該使用者來說更智慧型。
更進一步總結一下整個識別過程:對採集的目標語音進行處理,獲取包含關鍵資訊的語音部分——提取關鍵資訊——識別最小單元字詞,分析規定語法排列——分析整句語義,將關鍵內容斷句排列,調整文字構成——根據整體資訊修改出現輕微偏差的內容。
語音識別的難點
儘管語音識別的研究已有半個世紀了,但現有的語音識別系統仍存在許多困難,還遠遠達不到實用化的要求,主要表現在 1 魯棒性 目前的語音識別系統對環境條件的依賴性強,要求保持測試條件和訓練條件一致,否則系統效能會嚴重下降。2 雜訊問題 現有的語音識別系統大多只能工作在安靜的環境下,一旦在雜訊環境下工作,講...
語音識別的基本方法
一般來說 語音識別的方法有三種 基於聲道模型和語音知識的方法 模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而...
智慧型雲端語音識別
2017年12月,雲 社群對外發布,從最開始的技術部落格到現在擁有多個社群產品。未來,我們一起乘風破浪,創造無限可能。今天就給大家介紹一下,恩智浦iot解決方案團隊針對低功耗 低成本的,基於人工智慧技術的語音識別,在imx rt上的軟硬體設計和實現。基於該方案能針對智慧型家居的各種裝置提供以下三種應...