語音識別標準中WER和SER解釋

2021-08-09 16:39:10 字數 750 閱讀 8109

在語音識別中,常用的評估標準為詞錯誤率wer,

wer計算方式為:為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換,刪除,或者插入某些詞,

這些插入,替換,刪除的詞的總個數,除以標準的詞序列中詞的個數的百分比,即為wer,其計算公式如下所示:

需要注意的是,因為有插入詞,所以wer有可能大於100%,

例子:如下圖所示:

第一行為標準的詞序列,第二行為識別出來的詞序列

那麼上述的wer計算如下所示:

增加詞3個,替換的詞6個,刪除的詞1個,那麼wer為:

在語音識別中,除了wer,還有句子識別錯誤率這個標準,即ser,ser表述為句子中如果有乙個詞識別錯誤,那麼這個句子被認為識別錯誤,句子識別錯誤的的個數,除以總的句子個數即為ser

其計算公式如下所示:

除了wer,ser,還有字錯誤率,即cer,不是很常用就不介紹了。

語音識別評估標準 WER

在語音識別中,常用的評估標準為詞錯誤率wer,wer計算方式為 為了使識別出來的詞序列和標準的詞序列之間保持一致,需要進行替換,刪除,或者插入某些詞,這些插入,替換,刪除的詞的總個數,除以標準的詞序列中詞的個數的百分比,即為wer,其計算公式如下所示 需要注意的是,因為有插入詞,所以wer有可能大於...

語音識別中的詞錯率(SER)以及字錯率(WER)

句錯率 sentenct error rate,ser 如果識別的句子與標準句子中由任意乙個字不對應,那麼這句話就是錯的,錯的句子個數除以總句子個數即為句錯率。公式如下 可以理解為以下情況 描述例子 由於字多而導致句子不對 如 吃了嗎?識別為 吃了嗎媽?由於字少而導致句子不對 如 吃了嗎?識別為 吃...

語音識別中的聲學模型(AM)和語言模型 LM

本文主要受參考自 以及 最近看essen原始碼,感覺對於asr 的一下之前的比較基礎的演算法很生疏,在知乎上看到這個鏈結,感覺講的比較通俗易懂,拿來再理解一下。decoder是根據字典,聲學模型和語音模型,將輸入的語音特徵失量序列轉化為字串行。聲學模型是對聲學 語音學 環境的變數 說話人性別 口音等...