深度學習與人類語言處理 語音識別 part3

2022-08-10 06:09:12 字數 2667 閱讀 8033

上節回顧深度學習與人類語言處理-語音識別(part2),這節課我們接著看seq2seq模型怎麼做語音識別

上節課我們知道las做語音識別需要看完乙個完整的序列才能輸出,把我們希望語音識別模型可以在聽到聲音的時候就進行輸出,乙個直觀的想法就是用單向的rnn,我們來看看ctc是怎麼做的

input: 長度為t的聲學特徵

encoder:單向rnn

ouput:長度為t的token,每乙個輸出位置對應詞典中每個詞的概率

但是對每乙個輸入的聲學特徵不總是會有對應的輸出token,每一聲學特徵所包含的資訊是非常少的,所以ctc在輸出的詞彙表中加入了乙個標記\(\phi\),表示什麼也沒有,詞典大小變為v+1

ouput:長度為t的token,其中包括

《解析深度學習 語音識別實踐》 pdf

您所在位置 首頁 海量文件 生活休閒 時政新聞 解析深度學習 語音識別實踐 pdf321頁 3.登入後可充值,立即自動返金幣,充值渠道很便利 2 本pdf僅限用於個人獲取知識,進行私底下的知識交流 3 pdf獲得者不得在網際網路上以任何目的進行傳播 4 如覺得書籍內容很讚,請購買正版實體書,支援作者...

基於深度學習方法的語音識別研究(三)

前些天在師兄的幫助下,在此感謝工大的薛師兄,實現了blstm的語音識別聲學模型的搭建,由於實驗室存在保密協議,只能提供部分 還望各位同學體諒,如下 coding utf 8 author zhangwei import tensorflow as tf import numpy as np file...

基於深度學習的中文語音識別系統框架學習筆記

2 使用原文提供的聲學模型和語言模型測試結果,資料標籤整理在data路徑下,其中primewords st cmd目前未區分訓練集測試集。若需要使用所有資料集,只需解壓到統一路徑下,然後設定utils.py中datapath的路徑即可。我測試時只使用了thches30語音庫,解壓到data資料夾,修...