CTC學習筆記(一) 簡介

2021-09-19 08:49:04 字數 1941 閱讀 5843

connectionist temporal classification簡稱ctc,翻譯不太清楚,可以理解為基於神經網路的時序類分類。其中classification比較好理解,表示分類問題;temporal可以理解為時序類問題,比如語音識別的一幀資料,很難給出乙個label,但是幾十幀資料就容易判斷出對應的發音label,這個詞也給出ctc最核心的意義;connectionist可以理解為神經網路中的連線。

語音識別聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓練,在訓練的資料準備階段必須要對語音進行強制對齊。

ctc的引入可以放寬了這種一一對應的限制要求,只需要乙個輸入序列和乙個輸出序列即可以訓練。有兩點好處:不需要對資料對齊和一一標註;ctc直接輸出序列**的概率,不需要外部的後處理。

如上圖,傳統的framewise訓練需要進行語音和音素發音的對齊,比如「s」對應的一整段語音的標註都是s;而ctc引入了blank(該幀沒有**值),「s」對應的一整段語音中只有乙個spike(尖峰)被認為是s,其他的認為是blank。對於一段語音,ctc最後的輸出是spike的序列,不關心每乙個音素對應的時間長度。

語音識別中的dnn訓練,每一幀都有相應的狀態標記,比如有5幀輸入x1,x2,x3,x4,x5,對應的標註分別是狀態a1,a1,a1,a2,a2。

ctc的不同之處在於輸出狀態引入了乙個blank,輸出和label滿足如下的等價關係: f

(a−a

b−)=

f(−a

a−−a

bb)=

aab 

f(a−ab−)=f(−aa−−abb)=aab

多個輸出序列可以對映到乙個輸出。

《supervised sequence labelling with recurrent neural networks》 chapter7

connectionist temporal classification簡稱ctc,翻譯不太清楚,可以理解為基於神經網路的時序類分類。其中classification比較好理解,表示分類問題;temporal可以理解為時序類問題,比如語音識別的一幀資料,很難給出乙個label,但是幾十幀資料就容易判斷出對應的發音label,這個詞也給出ctc最核心的意義;connectionist可以理解為神經網路中的連線。

語音識別聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓練,在訓練的資料準備階段必須要對語音進行強制對齊。

ctc的引入可以放寬了這種一一對應的限制要求,只需要乙個輸入序列和乙個輸出序列即可以訓練。有兩點好處:不需要對資料對齊和一一標註;ctc直接輸出序列**的概率,不需要外部的後處理。

如上圖,傳統的framewise訓練需要進行語音和音素發音的對齊,比如「s」對應的一整段語音的標註都是s;而ctc引入了blank(該幀沒有**值),「s」對應的一整段語音中只有乙個spike(尖峰)被認為是s,其他的認為是blank。對於一段語音,ctc最後的輸出是spike的序列,不關心每乙個音素對應的時間長度。

語音識別中的dnn訓練,每一幀都有相應的狀態標記,比如有5幀輸入x1,x2,x3,x4,x5,對應的標註分別是狀態a1,a1,a1,a2,a2。

ctc的不同之處在於輸出狀態引入了乙個blank,輸出和label滿足如下的等價關係: f

(a−a

b−)=

f(−a

a−−a

bb)=

aab 

f(a−ab−)=f(−aa−−abb)=aab

多個輸出序列可以對映到乙個輸出。

《supervised sequence labelling with recurrent neural networks》 chapter7

CTC模型簡介

ctc connectionist temporal classification 可以理解為基於神經網路的時序類分類。比如語音識別 的一幀資料,很難給出乙個label,但是幾十幀資料就容易判斷出對應的發音label。語音識別聲學模型的訓練屬於監督學習,需要知道每一幀對應的label才能進行有效的訓...

CTC學習筆記(三) 解碼

解碼是對於輸入序列x找出概率最大的輸出序列l,而不是概率最大的一條輸出路徑,因為輸出路徑和輸出序列是多對一關係。l argm axl argmax l arg max最優路徑找出每一幀輸出的最大概率組成的輸出序列即為最後的解碼結果,這種方式會引入問題。對於上圖,這種方法解碼出來的結果是blank,但...

CTC學習筆記(三) 解碼

解碼是對於輸入序列x找出概率最大的輸出序列l,而不是概率最大的一條輸出路徑,因為輸出路徑和輸出序列是多對一關係。l ar gmax l argmax 北 b ei京 j ing 當t 1的時候,每個w的前兩個tok被啟用 當t 2的時候,每個w的tok只能在單詞內傳播,對於 北 來說,tok 北,3...