語音識別技術突飛猛進

2021-10-25 07:35:07 字數 3551 閱讀 9653

chang

2023年國際語音通訊協會第12次年會(interspeech 2011)於8月28日至31日在義大利佛羅倫斯舉行。來自微軟研究院的研究人員在會上發表了他們的研究成果,這些成果極大地提公升了非特定人實時語音識別系統的潛力。

來自微軟雷德蒙研究院的研究員俞棟博士以及來自微軟亞洲研究院的高階研究員兼研究經理frank

seide是這項研究的帶頭人,兩支團隊精誠合作,在基於人工神經網路的大詞彙量語音識別研究中取得了重大突破。

語音識別研究的終極目標

語音-文字轉換(voice-to-text)軟體和自動**服務等應用背後的關鍵技術是語音識別。在這些應用中語音識別準確率是至關重要的,而為了做到這一點,語音-文字轉換軟體通常要求使用者在安裝過程中對軟體進行「訓練」,軟體本身也要隨著時間的推移慢慢適應使用者的語音模式。需要與多個說話者互動的自動語音服務則不允許存在使用者對軟體進行訓練的環節,因為它們必須能夠在第一時間為任何使用者服務。為了解決識別準確率較低的問題,這些系統要麼只能處理很小的詞彙量,要麼嚴格限制使用者可以使用的字句或模式。

自動語音識別的最終目標是提供即買即用、可以自動快速適應任何說話者的語音識別服務,這個系統不需要使用者訓練就可以針對所有使用者和各種條件,良好地發揮功用。

「這個目標在移動網際網路時代顯得尤為重要,」俞棟博士表示,「因為語音是智慧型手機和其他移動裝置必不可缺的介面模式。雖然個人移動裝置是採集和學習使用者語音的理想裝置,但使用者只有在初始體驗,也就是在針對該使用者的模型建立之前的體驗非常良好時,才會繼續使用語音功能。」

非特定人語音識別技術對於沒有機會或辦法適應使用者的語音識別系統也非常重要,例如在呼叫中心,來電者身份是未知的,而且通話時間只有幾秒鐘;又例如使用者可能會因為擔心隱私問題而不願意在提供「語音-語音(speech-to-speech)」翻譯的網路服務中留存語音樣本。

重燃對神經網路的興趣

自20世紀50年代以來,人工神經網路(anns),也就是人類大腦低階迴路的數學模型,就已經為人們所熟知。利用人工神經網路改善語音識別效能的想法早在20世紀80年代就已出現,而且一項名為人工神經網路-隱馬爾可夫混合模型(ann

- hmm)的技術顯示了其在大詞彙量語音識別中的潛力。那麼,為什麼商用語音識別系統反而不採納人工神經網路技術呢?

「這一切都歸結於效能,」 俞棟博士解釋道,「在針對傳統的上下文相關的高斯混合模型-隱馬爾可夫模型(cd-gmm-hmms)區分性訓練演算法發明後,高斯混合模型-隱馬爾可夫模型的精度得到了提公升,並在大詞彙量語音識別方面的表現超過了人工神經網路模型。」

俞棟博士以及微軟雷德蒙研究院語音組的成員們對人工神經網路模型重新燃起興趣,是因為最近在訓練更加複雜的深層神經網路(dnns)方面取得了新的進展,這些進展使得基於人工神經網路的自動語音識別系統具有超越現有技術水平的潛力。2023年6月,多倫多大學實習生george

dahl加入研究團隊,研究人員開始**如何利用深層神經網路改善大詞彙量語音識別。

「george帶來了對深層神經網路工作原理的深刻見解,」俞棟博士說,「而且他在深層神經網路訓練方面有著豐富的經驗,而深層神經網路正是我們所要建立系統的關鍵組成部分之一。」

語音識別系統在本質上就是對語音組成單元進行建模。英語中表達發音方式的大約30個音素就是這樣的組成單元。最先進的語音識別系統使用更短的稱為senone的單元,總數達到幾千或上萬個。

之前的基於深層神經網路的語音識別系統就是對音素進行建模。俞棟博士的研究實現了一次飛躍,當他與語音組首席研究員鄧力博士和首席研究員兼研究經理alex

acero博士討論之後,提出使用深層神經網路對數以千計的senones(一種比音素小很多的建模單元)直接建模。由此產生的**《基於預訓練的上下文相關深層神經網路的大詞彙語音識別》(george dahl、俞棟、鄧力和alex

acero合著)描述了第乙個成功應用於大詞彙量語音識別系統的上下文相關的深層神經網路-隱馬爾可夫混合模型(cd-dnn-hmm)。

「也有人嘗試過上下文相關的人工神經網路模型,」俞棟博士指出,「但他們使用的架構效果不佳。在我們發現所用的新方法使語音搜尋的準確率大大提高地那一刻,我們非常激動。我們意識到,通過使用深層神經網路對senones直接建模,我們可以比最先進的常規cd-gmm-hmm大詞彙量語音識別系統相對誤差率減少16%以上。考慮到語音識別作為乙個活躍的研究領域已經存在了50多年,這樣的進展確實具有非常重要的意義。」

為了加速實驗,研究小組還使用了通用圖形處理器來進行語音模型訓練和解碼。神經網路的計算在結構上類似於電腦遊戲中使用的3-d圖形,而現代的圖形卡可以同時處理近500個這樣的計算。在神經網路中運用這種計算能力大大提公升了建模可行性。

2023年10月,俞棟博士在微軟亞洲研究院的一次內部研討中介紹了這篇**,他提到在此基礎上開發效能更強的大詞彙量語音識別聲學模型面臨以下挑戰:實現並行訓練和使訓練擴充套件到更大的訓練集。seide被這項研究深深觸動,他隨即加入該專案,並為團隊帶來了大詞彙量語音識別、系統開發和基準測試等方面的經驗。

神經網路基準測試

「我們通常認為數百上千的senones數量太大而無法用神經網路準確地建模和訓練,」seide說,「然而,俞棟和他的同事們證明,這樣做不僅是可行的,而且還能顯著提高準確率。現在,我們要證明的是這套cd-dnn-hmm模型可以有效使用更多的訓練資料。」

在新專案中,cd-dnn-hmm模型被用於語音-文字轉換,並在研究界公認的極具挑戰性的**語音識別標準資料集switchboard上進行評測。

首先,研究團隊對深層神經網路訓練工具進行了改寫,以支援更大的訓練資料集。然後,在微軟亞洲研究院軟體開發工程師李剛的幫助下,他們將新的模型和工具在含有300小時語音訓練資料的switchboard標準資料集上進行評測。為了支援如此大量的資料,研究人員建立了一些巨大的神經網路模型,其中乙個包含了6,600多萬神經間鏈結,這是語音識別研究史上最大的同類模型。

隨後的基準測試取得了令人驚訝的低字詞錯誤率——18.5%,與最先進的常規系統相比,相對錯誤率減少了33%。

「我們開始執行switchboard基準測試時,」seide回憶說,「我們只期望實現類似語音搜尋任務中所觀察到的結果,也就是16-20%的相對改善。整個訓練過程大約花費了20天的計算時間,而且每隔幾個小時就產生乙個稍稍改良的新模型。每隔幾個小時,我都會迫不及待地測試最新模型。你無法想象,當相對改善超出預期的20%時,我們有多興奮,而且模型仍在不斷改善,最後定格在30%以上。過去,只有極少數的單項技術能在語音識別方面實現如此幅度的改善。」

由此產生的**題為《使用上下文相關深層神經網路進行交談語音轉寫》(frank

seide、李剛和俞棟合著),已經於8月29日發表。這項工作已經引起了科研界的高度重視,而研究團隊希望通過在會議上發表這篇**進一步啟迪這條新的研究路徑,並最終將基於深層神經網路的大詞彙量語音識別推到乙個新的高度。

離未來更近了一步

這種基於人工神經網路的非特定人語音識別新方法所實現的識別準確率比常規系統高出了三分之一以上,俞棟、seide和他們的團隊向著流暢的「語音-語音互動」這一目標又邁進了一大步。這項創新簡化了大詞彙量語音識別中的語音處理,能實時識別並取得較高的準確率。

「這項工作仍處於研究階段,還會面臨很多挑戰,其中最嚴峻的挑戰在於擴充套件到使用數萬小時訓練資料。我們的研究成果只是乙個開始,這一領域將來還會有更多令人振奮的進展。」seide說:「我們的目標是實現以前沒法實現的新的基於語音的流暢服務。我們相信,這項研究最終將改變我們的工作和生活。想象一下吧:用語音-語音實時翻譯進行自然流暢的交談,用語音進行檢索,或者用交談式自然語言進行人機互動。」

歡迎關注

助你程式設計能力 突飛猛進 的乾貨分享

本文 github 已收錄,有技術乾貨文章,整理的學習資料,一線大廠面試經驗分享等,歡迎 star 和 完善。正如每個人都知道的那樣,寫更多的 是提高程式設計能力最顯著的方法。所以,很明顯,提高程式設計能力,需要經歷以下幾個階段 想要讓程式設計能力 突飛猛進 像 裡擁有 金手指 的主角一樣,一刀 9...

以太坊ETH價值突飛猛進 Mybit成投資者新選

第三季度的去中心化金融繁榮導致以太坊 eth 網路處理的每日交易量超過位元幣 btc 兩倍。根據加密市場資料聚合商messari的資料,以太坊的 30 天滾動交易量目前平均為 70 億美元,而位元幣處理量不到 30 億美元。如果當前的趨勢繼續下去,有機構 以太坊將成為第乙個在年內結算1萬億美元交易的...

BCH資訊 這週的價格和開發都突飛猛進

最近bch 和基礎設施建設都很有意思,bch生態得到了很大發展。這兩天,大部分加密貨幣都出現了1 15 的 但就在昨天bch的 激增25 位元幣現金今天的 很好,昨天 激增之後今天又 14,8 有些人認為這是因為位元大陸在香港提交ipo申請。bch的 持續 到9月27日,達到578美元。現在 穩定在...