語音識別的準確率,永遠達不到100 ?

2021-10-25 07:33:04 字數 1128 閱讀 9363

湯普森的預言曾令我十分激動,我迫切希望有一種技術能把我從令人疲倦的整理採訪記錄的工作中解脫出來。不過,雖然他在廣播領域有著輝煌的職業生涯,而且還在繼續(他目前擔任npr調查報道中心的主任,負責《揭秘》節目等),但他預言的「語音奇點」似乎遙不可期。

但文字的準確率卻是另一回事。2023年,微軟研究院的乙個團隊宣布,他們的機器學習演算法經過訓練後,將標準語料庫的錄音轉換成文字的準確率高達94%。在微軟的測試實驗中,這一軟體幾乎能和專業的轉錄員做得一樣好,大量**也開始稱讚語音識別軟體與人類「平起平坐」的時代已經到來。

但事實上,最後6%的準確率才是真正的難題所在。乙個更慘痛的教訓的是:校對乙份準確率為94%的文字耗費的時間,幾乎和直接手動轉錄原始錄音所耗費的時間相差無幾。而在這一次突破的4年後,temi等服務軟體仍沒能將準確率提高至95%以上,而且只能處理音質清晰、沒有口音的語音。

準確率為何如此重要?舉乙個例子,越來越多的音訊製作者在發布播客時會遵循著網路的易用性規範,附帶乙份文字版本,但是,如果文字裡的文字每隔20個單詞就出現一處錯誤,那肯定沒人願意看。再考慮一下,如果像alexa、bixby、cortana、google assistant和siri這樣的語音助手能夠正確識別它們接收到的每乙個問題或指令,能給人們節省多少時間?

asr軟體可能永遠無法達到100%的準確率。畢竟人們說話未必總是十分流利,即使是使用母語。語言中也有太多需要結合上下文才能理解的同音異義詞。(語音轉錄服務曾將「ios」識別為「ayahusca」。)

但我所期望的是,這些語音服務還能提公升1%~2%的準確率。在機器學習領域,為了減少演算法錯誤率,乙個至關重要的方法是提供更多高質量的訓練資料。因此,大多文字轉錄服務商都會採用不侵犯隱私的方式蒐集更多的資料。舉例來說,每一次我修訂由trint或是sonix轉錄的文字時,我都在生成乙份驗證過的符合原始錄音的新資料,這可以用於提公升演算法模型的質量。如果這能讓今後的錯誤率變得更低,我很樂於讓這些企業使用這些資料。

顯然,增加訓練資料是實現「語音奇點」的方法之一。隨著我們和機器對話的數量增多,我們產生的音訊數量也會與日俱增,可靠的語音轉錄技術將不再是奢侈的幻想或是遙遙無期的目標,它必然會實現。

撰文:韋德·勞什(wade roush)

翻譯:趙劍琳

機器學習KNN識別準確率 2

import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from math import sqrt from collections import counter class knnclassfi...

輸入法黑科技 語音識別準確率98 使用者超過6億

圖為6月12日,訊飛輸入法聯合創始人翟吉博在 愛輸入 更懂你 的 見面會上展示黑科技。訊息 一分鐘打出400字,是什麼樣的體驗?以往只有專業速錄員能實現的打字速度,如今運用了大量ai黑科技的智慧型語音輸入也可以讓你體驗這樣的速度!在速錄的同時它還能讓使用者以語音進行修改 添增 刪除文字的操作。6月1...

識別演算法準確率自動化測試框架

1.功能 基於ai深度學習 opencv影象檢測或識別技術形成的各類演算法,進行對演算法識別準確率自動化測試的測試框架。2.詳細流程場景 1 給演算法一張,得給出乙個值 演算法可以在本地呼叫封裝後使用,也可形成http介面請求呼叫 2 核對這個值是否和期望值一致 3 大量的進行批量測試,支援多程序併...