句錯率(sentenct error rate,ser):如果識別的句子與標準句子中由任意乙個字不對應,那麼這句話就是錯的,錯的句子個數除以總句子個數即為句錯率。
公式如下:
可以理解為以下情況:
描述例子
由於字多而導致句子不對
如:吃了嗎?識別為:吃了嗎媽?
由於字少而導致句子不對
如:吃了嗎?識別為:吃嗎?
由於字不對應而導致句子不對
如:吃了嗎?識別為:吃了嘛?
字錯率(word error rate,wer):將識別出來的字與標準句子中的字進行比較,統計出需要進行插入(insertion)、刪除(deletion)、替換(substitution)某些字母才能與標準句子中的字一樣的個數,之後除以總字數則為詞錯率。
公式如下:
可以理解為以下情況:
描述例子
deletion
如:吃了嗎?識別為:吃了嗎媽?
insertion
如:吃了嗎?識別為:吃嗎?
substitution
如:吃了嗎?識別為:吃了嘛?
[1]hunt m j . figures of merit for assessing connected-word recognisers[j]. speech communication, 1990, 9(4):329-336.
[2]
語音識別標準中WER和SER解釋
在語音識別中,常用的評估標準為詞錯誤率wer,wer計算方式為 為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換,刪除,或者插入某些詞,這些插入,替換,刪除的詞的總個數,除以標準的詞序列中詞的個數的百分比,即為wer,其計算公式如下所示 需要注意的是,因為有插入詞,所以wer有可能大於...
語音識別中的決策樹
1.為什麼需要決策樹 我們在使用htk進行語音識別模型訓練的過程中,首先進行的是單音素 單個高斯的模型訓練。拋開單個高斯不說,單音素模型本身有很大缺點 沒有考慮到本音素前後音素的發音對本音素的影響。比如,同樣是乙個音素iy,如果它前面的音素分別是h和p,那麼iy這個音素在這兩種情況下的發音會有所不同...
語音中的關於語音識別的一些知識
以下內容都是抄的,哈哈哈 1.mel頻率 是模擬人耳對不同頻率語音的感知。人類對不同頻率語音有不同的感知能力 對1khz以下,與頻率成線性關係,對1khz以上,與頻率成對數關係。頻率越高,感知能力就越差了。因此,在應用中常常只使用低頻mfcc,而丟棄中高頻mfcc。在mel頻域內,人對音調的感知能力...