圖1為通用的語音識別解碼器框架,聲學模型我們採取的是隱馬爾可夫模型模型,其發射概率為混合高斯矩陣。 語言模型我們採用的是n-gram的方式。這裡聲學模型和語言模型都為單一的乙個模型。
圖1 通用的語音識別系統框架
圖2 並行解碼空間的系框框架
相對通用的解碼系統,並行解碼空間系統主要增加了三個模組: 多路解碼空間&多路語言模型;競爭打分模組,使用者主題**。
多路解碼空間&多路語言模型。語言模型訓練一共分為三個模組,其中包括分類語料訓練模組,模板語料訓練模組,詞表語料訓練模組三個模組。具體步驟如下:
步驟一,根據分類的類別構建一組基礎分類詞典進,通過最大後向匹配演算法挖掘以及中心詞計算的方法挖掘文字。對文字進行統計頻率排序。將高頻的文字作為分類訓練樣本
步驟二,將挖到的文字構建文字分類器,用文字分類器在語料中挖掘高召回分值的句子。通過對句子進行詞頻統計,選擇tf-idf高的詞來擴充詞表。迭代第一步驟,當分類詞表不再擴充時,停止迭代,進入步驟三。
步驟三,根據步驟一,步驟二得到的分類詞表和分類語料。通過分類詞表在在分類語料中挖掘出模板,取高頻模板訓練模板分類模板語言模型,取分類語料訓練分類語言模型。根據詞表訓練詞表語言模型。
解碼器空間採用的是wfst(加權有限狀態機),將聲學模型,語言模型和詞典構建wfst網路圖,並將其compose到一張wfst圖上, 具體做法如圖三所示:
圖三 wfst 網路構建框架圖
語言模型wfst中,通過將模板語言模型,詞表語言模型,分類語言模型的融合生成一張帶label的wfst圖。
表1對錶1 左邊,我們按正常的語言模型訓練方式,輸入輸出都為詞或者label,
表1 右邊,在每個詞的前面增加乙個輸入變 label: eps 。通過這種方式將兩個語言模型組合在一起。如圖4所示
圖4通過這種方法,降低了語言模型對語料的大小的需求,保證了一些不常出現的詞在wfst網格路徑中的出現頻度。
競爭打分模組,我們採用聲學模型競爭、語言模型競爭、語義模型競爭三種方法
1) 聲學模型分數競爭,對n條備選路徑,進行最終置信度打分,其具體流程如下:
首先,用每一條備選路徑的識別結果進行強制對齊,之後可以計算得出相應的聲學模型置信度,基於聲學模型的置信度演算法分為兩個階段,音素級別的置信度計算如下式
2) 語言模型分數
競爭通過大語料的訓練獲取乙個50g的大語言模型,通過該語言模型計算各路語音解碼器識別結果的ppl(困惑度)分數值。 其公式如下
3) 語義層面分數競爭,通過對語音識別結果的語音層面分析來計算打分結果
3.1 提取識別結果中心詞。這裡採用lsa訓練大規模語料計算語義距離矩陣。通過對識別結果進行分詞,計算每個詞之間的語義距離,選取和其他詞語語音距離最近的詞作為中心詞。
3.2文字分類概率, 通過計算識別文字在文字分類器中的概率來計算最終語音識別結果應該屬於某一路的概率。
使用者主題判定,根據使用者的歷史語音輸入記錄,我們通過主題建模,選擇相應的幾路語音識別解碼器來進行語音識別,並且根據使用者輸入習慣,對不同類別的解碼器給予不同的權重。
結論經過測試,並行空間解碼器在垂直領域的測試集上有了較大提公升。
前景利用並行解碼空間,語音識別可以更好地支援多個垂直領域,涵蓋範圍包括地圖、**、遊戲等多個領域。同時也可以通過模板設計和特定領域語料訓練來針對特定的使用者和商家給予定**務。
C 語音識別(文字to語音 語音to文字)
最近打算研究一下語音識別,但是發現網上很少有c 的完整 就把自己的學習心得放上來,和大家分享一下。1 speechsdk51.exe 67.0 mb 2 speechsdk51langpack.exe 81.0 mb 文字to語音 這個相當的簡單。1 在com選項卡裡面的microsoft spee...
C 語音識別(文字to語音 語音to文字)
最近打算研究一下語音識別,但是發現網上很少有c 的完整 就把自己的學習心得放上來,和大家分享一下。1 speechsdk51.exe 67.0 mb 2 speechsdk51langpack.exe 81.0 mb 文字to語音 這個相當的簡單。1 在com選項卡裡面的microsoft spee...
語音識別技術
中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...