本文主要講解一下gmm-hmm演算法聲學模型的大概思路!~~~
聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下:
我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係,通常乙個音素含有3到5個狀態,如果乙個包含代表乙個音素的hmm模型有3個狀態(1,2,3,4,5),在對應乙個音素的狀態序列可以有1122333455(共10幀),序列的狀態數可以大於實際定義的hmm狀態數,更具體的可以舉例如下,
假如音素ah,每一幀用乙個狀態表示,但是連續多幀可以同屬於乙個狀態,如下圖所示,1-6幀同屬於乙個狀態s1029,7-10幀同屬於狀態s124,11-16幀同屬於狀態s561:
gmm的作用:gmm主要是為了得到hmm求解過程的發射概率。
hmm的作用:就是根據各個概率得到最優的音素,單詞以及句子序列!~~~
音素hmm模型
句子的hmm模型也就是將所有的音素hmm狀態進行串聯起來。
貼個圖,大家可以看一下
~~~現在大多數識別都採用三音素模型!~~~
隨著神經網路的普及以及gpu的高效能,dnn-hmm聲學模型估計將成為主流!~~~
具體gmm-hmm理論以及訓練識別過程將在以後的文章裡介紹!~~~
GMM HMM語音識別
現在假設知道了hmm模型中的乙個狀態 比如,孤立此識別中,這裡乙個狀態代表乙個詞 對應的k個多維高斯的所有引數,則該gmm生成該狀態 該詞 上某乙個觀察向量 的概率就出來了,即,知道了某個孤立詞對應的k個高斯模型的所有引數,那麼,就可以計算一幀觀測值對於該詞的概率。以下是文獻中提到的 機器學習 資料...
語音識別 gmm hmm思考
簡單回顧一下今天所看的內容 gmm hmm pdf 概率密度函式,在這裡可以由gmm來估計,同樣也可以用dnn來估計。gmm 高斯混合模型,單高斯函式,多高斯函式。能擬合任何函式,這裡會涉及到均值方差等變數 語音有短時平穩的特性,可以用高斯混合模型來估計 從而就會有概率密度函式。hmm 隱馬爾科夫模...
語音識別 之 GMM HMM
gmm,gaussian mixture model,gmm,高斯混合模型。資料往往不知道是哪個高斯分布,這給gmm的引數初始化帶來困難。所有聚類演算法都可用於此,常用的有k means lbg等。模型自適應,由於各地口音,採集裝置,環境雜訊等因素的差異,已訓練過的gmm hmm很可能和新領域的測試...