端到端語音翻譯中預訓練和微調的銜接方法

2021-10-09 16:17:28 字數 700 閱讀 1402

st:speech translation,語音翻譯

asr:automatic speech recognition,自動語音識別

mt:machine translation,機器翻譯

tcen:tandem connectionist encoding network, 串聯編碼網路

摘要在端到端的語義翻譯中,預訓練和微調的方法被廣泛使用,但兩個環節不能很好的進行銜接。文章提出了串聯編碼網路,是參與語音翻譯任務的兩個子網路都能夠被預訓練,且預訓練中學到的引數都將在微調過程中使用,從而顯著提公升語音翻譯模型效能。

問題端到端語音翻譯:是指將一段源語言語音直接翻譯為目標預言的文字,而不產生任何中間表示(源語言文字)。已有工作表明預訓練和多工訓練可以顯著提公升端到端語音翻譯的效果,通常的做法是分別在語音識別任務和機器翻譯任務上訓練乙個編碼器-解碼器模型,然後將前者的語音編碼和後者的文字解碼器組合起來,在語音翻譯的任務上進行微調。

然而這使得預訓練和微調過程存在以下3個問題:

問題的解決

提出一種新的模型結構-串聯編碼網路。這種結構能夠使參與語音翻譯任務的每個子網路都能夠被預訓練,且訓練中學到的引數都將在微調中使用。與傳統的預訓練、多工學習模式相比,該網路結構和訓練方法可以顯著提公升語音翻譯模型的效能。

參考:

Deep Speech 端到端的語音識別

對於傳統的語音識別,通常會分為3個部分 語音模型,詞典,語言模型。語音模型和語言模型都是分開進行訓練的,因此這兩個模型優化的損失函式不是相同的。而整個語音識別訓練的目標 wer word error rate 與這兩個模型的損失函式不是一致的。對於端到端的語音識別,模型的輸入就為語音特徵 輸入端 而...

什麼是端到端的訓練或學習?

傳統的影象識別問題往往通過分治法將其分解為預處理,特徵提取和選擇,分類器設計等若干步驟。分治法的動機是將影象識別的母問題分解為簡單 可控且清晰的若干小的子問題。不過分步解決子問題時,儘管可以在子問題上得到最優解,但子問題上的最優解並不意味著就能得到全域性問題的最優解。深度學習提供了一種端到端的學習正...

從零開始語音識別(5) 端到端的語音識別系統

seq2seq 此模型長用於機器翻譯 語音識別。其優點是輸入輸出不需要等長,而且兩者長度不固定。此模型包含兩個rnn結構,分別用於編碼與解碼。decoder網路直到解碼的序列是end才停止,因此可以實現變長的輸出。encoder將輸入進行編碼,將整個輸入的隱狀態輸入給decoder,可以實現輸入的變...