關鍵概念:
一幀訊號通過傅利葉變換可以提取出頻譜,頻譜具有精細結構(反映音高,用處不大)和包絡(反映音色,用處大)。
mfcc:梅爾頻率倒譜係數,主要描述頻譜包絡。梅爾頻率是基於人耳聽覺特性提出來的, 它與hz頻率成非線性對應關係。梅爾頻率倒譜係數(mfcc)則是利用它們之間的這種關係,計算得到的hz頻譜特徵。主要用於語音資料特徵提取和降低運算維度(對於乙個很多維(取樣點)的資料,可以通過mfcc提取出其中最重要的幾個取樣點從而降低了資料的維度)。
識別乙個未知語音之後,要通過計算其與模板(提前已知)的距離來判斷語音是什麼意思。比較這個距離,要用到dtw動態彎演算法,讓待識別語音中的每一幀與模板中最相似的一幀進行匹配,總距離即為各幀匹配後所得的歐氏距離之和。
gmm:高斯混合模型。如果每個詞有多個模板,便可把模板訓練成模型(將模板切割成多個段落),在採用gmm模型識別語音時,依然是採用動態彎演算法,將歐氏距離代替為gmm概率密度,概率最大的模型即為識別結果。
hmm:隱馬爾可夫模型。(具體意義見ppt)
bigram:乙個馬爾可夫模型。音素hmm模型通過詞典復合成單詞hmm模型,再由單詞hmm模型與語言模型復合成語言hmm。
現在的結構已經應用了神經網路,具體見ppt。
補充資料:
語音識別技術
中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...
語音識別技術
雖然人從外部獲取資訊,絕大部分來自來自視覺,可是語音的地位一直很高的,它很好的表表達了人的特徵和清晰的收入方式。其中語音識別技術的地位又是很高的,可以讓機器在字面上明白你在說什麼,這是自然的人機互動的基礎。現在走在語音識別技術前沿的公司有科大訊飛,google 微軟。在我們的前面幾篇 blog 中已...
語音識別技術概覽
語音識別基本和識別類似,都是從傳統的模型到深度神經網路dnn,再到rnn 深度卷積網路cnn。在端到端方面也是從隱馬爾科夫hmm到ctc lfmmi,再到attention方面 下面是一些模型列表 1.混合高斯 隱馬爾科夫模型 gmm hmm 2.深度神經網路 隱馬爾科夫模型 dnn hmm 3.深...