最近看到乙個asr的課程,很不錯吧。**:大家有時間可以去看下……
接下來就開始說dnn-hmm系統吧。所謂的這個就是把之前gmm這部分換成dnn,基於這個我們可以認為,深度學習模型可以更好的去模擬我們的語音頻號吧。先上個總圖吧:
看到這個圖大家應該都可以很清楚地去理解了。下面分開介紹:
1.特徵部分:一般在深度學習系統裡用filter bank 作為特徵,這個就是在做mfcc時去掉最後二步。在**裡說,這樣得到的效果比mfcc效果好幾個點吧。具體的稍後貼圖 (右 圖)。見文章:recent advances in deep learning for speech research at microsoft。
此外,有些人在研究其他的特徵,最多的就是bottleneck feature.這個現在很多人在研究,尋找乙個很多的特徵,肯定會使我們最後的識別率得到提高吧。至於這個 bottleneck feature,稍後貼出幾篇文章。
2.dnn部分:至於深度學習,相信了解的人都知道:從最初的bp演算法,到現在的rbm,dbn,cnn,rnn等等模型。當然,注意的是,語音不在像影象,在做第乙個rbm時應該用 grbm。我們應該用連續的就是高斯了來做這個假設。下面還是繼續貼圖:
這裡的大概是以dbn為框架的,其他的就可以以此類推。具體的實現可以參考kaldi裡的nnet2這部分,在rm和wsj資料上的。
3.hmm部分:這部分跟gmm-hmm一樣。還是弄乙個圖:
最後,上面的右圖就是bottleneck feature的示意圖。
就這樣,似乎不是很好的去理解吧。大家多實踐,多看**。希望對你有用……
語音識別系統原理介紹 gmm hmm
從寒假前的部落格 語音識別系統原理介紹 從gmm hmm到dnn hmm,最近有時間的時候我還是在不斷的去理解gmm hmm這個基準模型。下面我講從提玩mfcc特徵開始說起,希望可以讓你有所收穫吧。提完mfcc特徵,就相當於剩下乙個13維 幀數的矩陣。接下來,就是用混合高斯模型了。怎麼用?就用多維的...
語音識別系統搭建
搭建語音識別實驗記錄 pip 快速安裝 國內清華源 命令 pip install i 庫名 阿里映象安裝tensorflow pip install i tensorflow gpu 1.13.1語音識別系統 別人的部落格中找到可能出現的問題所在,應該設定gpu按需分配,再看本系統的執行檔案。起初,...
PocketSphinx語音識別系統的程式設計
pocketsphinx語音識別系統的程式設計 zouxy09 qq.com 關於語音識別的基礎知識和sphinx的知識,具體可以參考我的另外的博文 語音識別的基礎知識與cmusphinx介紹 article details 7941585 pocketsphinx語音識別系統的編譯 安裝和使用 a...