語音識別中的詞錯率（SER）以及字錯率（WER）

句錯率（sentenct error rate，ser）：如果識別的句子與標準句子中由任意乙個字不對應，那麼這句話就是錯的，錯的句子個數除以總句子個數即為句錯率。

公式如下：

可以理解為以下情況：

描述例子

由於字多而導致句子不對

如：吃了嗎？識別為：吃了嗎媽？

由於字少而導致句子不對

如：吃了嗎？識別為：吃嗎？

由於字不對應而導致句子不對

如：吃了嗎？識別為：吃了嘛？

字錯率（word error rate，wer）：將識別出來的字與標準句子中的字進行比較，統計出需要進行插入（insertion）、刪除（deletion）、替換（substitution）某些字母才能與標準句子中的字一樣的個數，之後除以總字數則為詞錯率。

公式如下：

可以理解為以下情況：

描述例子

deletion

如：吃了嗎？識別為：吃了嗎媽？

insertion

如：吃了嗎？識別為：吃嗎？

substitution

如：吃了嗎？識別為：吃了嘛？

[1]hunt m j . figures of merit for assessing connected-word recognisers[j]. speech communication, 1990, 9(4):329-336.

[2]

語音識別標準中WER和SER解釋

在語音識別中，常用的評估標準為詞錯誤率wer，wer計算方式為為了使識別出來的詞序列和標準的詞序列之間保持一致，需要進行替換，刪除，或者插入某些詞，這些插入，替換，刪除的詞的總個數，除以標準的詞序列中詞的個數的百分比，即為wer，其計算公式如下所示需要注意的是，因為有插入詞，所以wer有可能大於...

語音識別中的決策樹

1.為什麼需要決策樹我們在使用htk進行語音識別模型訓練的過程中，首先進行的是單音素單個高斯的模型訓練。拋開單個高斯不說，單音素模型本身有很大缺點沒有考慮到本音素前後音素的發音對本音素的影響。比如，同樣是乙個音素iy，如果它前面的音素分別是h和p，那麼iy這個音素在這兩種情況下的發音會有所不同...

語音中的關於語音識別的一些知識

以下內容都是抄的，哈哈哈 1.mel頻率是模擬人耳對不同頻率語音的感知。人類對不同頻率語音有不同的感知能力對1khz以下，與頻率成線性關係，對1khz以上，與頻率成對數關係。頻率越高，感知能力就越差了。因此，在應用中常常只使用低頻mfcc，而丟棄中高頻mfcc。在mel頻域內，人對音調的感知能力...

語音識別中的詞錯率（SER）以及字錯率（WER）

語音識別標準中WER和SER解釋

語音識別中的決策樹

語音中的關於語音識別的一些知識

相關推薦