語音識別 gmm hmm思考

2021-10-03 23:07:29 字數 784 閱讀 7566

簡單回顧一下今天所看的內容:

gmm-hmm

pdf: 概率密度函式,在這裡可以由gmm來估計,同樣也可以用dnn來估計。

gmm:

高斯混合模型,單高斯函式,多高斯函式。

能擬合任何函式,這裡會涉及到均值方差等變數

語音有短時平穩的特性,可以用高斯混合模型來估計;從而就會有概率密度函式。

hmm:隱馬爾科夫模型,雙馬爾科夫鏈的過程。關鍵在於理解狀態。

首先需要的說的馬爾科夫鏈。當與時間無關時,就是齊次馬爾科夫鏈。

隱馬爾科夫模型的特性。

引數問題:

a: 轉移概率[a_ij]

π:初始化概率[π_i]

b: 概率密度函式,離散連續的問題,這裡就是概率密度函式了,這裡就是上面的pdf了。gmm或者dnn來估計。

b: 在給定觀察序列時,各個狀態的概率是多少。即可以理解為gmm的輸出或者dnn的輸出。各個聚類的概率。

隱馬模型的訓練,在於估計轉移概率,概率密度函式的各個引數。

gmm-hmm . -> dnn-hmm:

這裡就是指概率密度函式的替換,也就是對引數估計的替換,即b的替換。

dnn-hmm . -> dnn-ctc:

這裡是ctc替換了hmm,將序列的訓練轉換成了ctc模型。

ctc替換了hmm,在**層面的表象上,就是指topo還掉了。

對於hmm,乙個hmm,三狀態,見拓撲hmm的表示。

對於ctc,乙個token可以跳轉到blk,blk不能跳回token了。

ctc-hmm核心在於序列訓練的準則。

GMM HMM語音識別

現在假設知道了hmm模型中的乙個狀態 比如,孤立此識別中,這裡乙個狀態代表乙個詞 對應的k個多維高斯的所有引數,則該gmm生成該狀態 該詞 上某乙個觀察向量 的概率就出來了,即,知道了某個孤立詞對應的k個高斯模型的所有引數,那麼,就可以計算一幀觀測值對於該詞的概率。以下是文獻中提到的 機器學習 資料...

語音識別 之 GMM HMM

gmm,gaussian mixture model,gmm,高斯混合模型。資料往往不知道是哪個高斯分布,這給gmm的引數初始化帶來困難。所有聚類演算法都可用於此,常用的有k means lbg等。模型自適應,由於各地口音,採集裝置,環境雜訊等因素的差異,已訓練過的gmm hmm很可能和新領域的測試...

語音識別 聲學模型(GMM HMM)

本文主要講解一下gmm hmm演算法聲學模型的大概思路!聲學模型的目的是將經mfcc提取的所有幀的特徵向量轉化為有序的音素輸出。概述如下 我們都知道hmm模型裡面有隱含狀態概念。我們需要弄明白音素hmm模型的隱含狀態與乙個音素之間的關係,通常乙個音素含有3到5個狀態,如果乙個包含代表乙個音素的hmm...