簡單回顧一下今天所看的內容:
gmm-hmm
pdf: 概率密度函式,在這裡可以由gmm來估計,同樣也可以用dnn來估計。
gmm:
高斯混合模型,單高斯函式,多高斯函式。
能擬合任何函式,這裡會涉及到均值方差等變數
語音有短時平穩的特性,可以用高斯混合模型來估計;從而就會有概率密度函式。
hmm:隱馬爾科夫模型,雙馬爾科夫鏈的過程。關鍵在於理解狀態。
首先需要的說的馬爾科夫鏈。當與時間無關時,就是齊次馬爾科夫鏈。
隱馬爾科夫模型的特性。
引數問題:
a: 轉移概率[a_ij]
π:初始化概率[π_i]
b: 概率密度函式,離散連續的問題,這裡就是概率密度函式了,這裡就是上面的pdf了。gmm或者dnn來估計。
b: 在給定觀察序列時,各個狀態的概率是多少。即可以理解為gmm的輸出或者dnn的輸出。各個聚類的概率。
隱馬模型的訓練,在於估計轉移概率,概率密度函式的各個引數。
gmm-hmm . -> dnn-hmm:
這裡就是指概率密度函式的替換,也就是對引數估計的替換,即b的替換。
dnn-hmm . -> dnn-ctc:
這裡是ctc替換了hmm,將序列的訓練轉換成了ctc模型。
ctc替換了hmm,在**層面的表象上,就是指topo還掉了。
對於hmm,乙個hmm,三狀態,見拓撲hmm的表示。
對於ctc,乙個token可以跳轉到blk,blk不能跳回token了。
ctc-hmm核心在於序列訓練的準則。
GMM HMM語音識別
現在假設知道了hmm模型中的乙個狀態 比如,孤立此識別中,這裡乙個狀態代表乙個詞 對應的k個多維高斯的所有引數,則該gmm生成該狀態 該詞 上某乙個觀察向量 的概率就出來了,即,知道了某個孤立詞對應的k個高斯模型的所有引數,那麼,就可以計算一幀觀測值對於該詞的概率。以下是文獻中提到的 機器學習 資料...
語音識別 之 GMM HMM
gmm,gaussian mixture model,gmm,高斯混合模型。資料往往不知道是哪個高斯分布,這給gmm的引數初始化帶來困難。所有聚類演算法都可用於此,常用的有k means lbg等。模型自適應,由於各地口音,採集裝置,環境雜訊等因素的差異,已訓練過的gmm hmm很可能和新領域的測試...
語音識別 聲學模型(GMM HMM)
本文主要講解一下gmm hmm演算法聲學模型的大概思路!聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下 我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係,通常乙個音素含有3到5個狀態,如果乙個包含代表乙個音素的hmm...