你怎麼看當前中文語音識別技術在國內的應用？

實際情況如何？實際是有五大黑幕！

黑幕1：是否標明了測試資料集？

很多廠商在宣傳達到97%、98%時，都沒有提到資料集，最近依圖發布語音技術的新聞是明確提出用的是aishell-2資料集，值得讚許。

現在市面上有這麼幾種公開資料集：

thchs-30

thchs-30是在安靜的辦公室環境下，通過單個碳粒麥克風錄取的，總時長超過30個小時。大部分參與錄音的人員是會說流利普通話的大學生。內容以文章詩句為主，全部為女聲

st-cmds

st-cmds是由乙個ai資料公司發布的中文語音資料集，包含10萬餘條語音檔案，大約100餘小時的語音資料。資料內容以平時的網上語音聊天和智慧型語音控制語句為主，855個不同說話者，同時有男聲和女聲，適合多種場景下使用。

primewords chinese corpus set 1

primewords包含了大約178小時的中文語音資料，這個免費的中文普通話語料庫由上海普力資訊科技****發布。語料庫由296名母語為英語的智慧型手機錄製。轉錄準確度大於98％，置信水平為95％，學術用途免費。抄本和話語之間的對映以json格式給出

aishell-2:

aishell foundation和希爾貝殼宣布的開源資料庫，其資料規模達1000小時，是目前全球最大的中文開源資料庫。

可以說資料集代表著測試的難度，直接反映軟體的應用水平。如果某公司用訓練集做測試資料集那還不都是100%？

黑幕2：成績是否可以復現？

準確率水平大多自說自話，其他人根本無法對其驗證。準確率97%或98%可以把所有的錯誤讓2%或3%去背鍋，所以需要第三方根據提供的資料集進行成績復現才能證明準確率的有效性。不能夠復現的成績我還可以說我99%呢，反正你也不知道我怎麼測的。

黑幕3：是否會標明轉寫用時？

大多數不強調，但對體驗影響很重要。在實時轉寫的時候，我們會預設說完就會出文字。但是實際會有一定的反應時間，發音時間過長，可能下一段語音開始了這邊還在轉寫上一句的內容，基本上就會丟失很多資料資訊。畢竟在會議或者有些場合，你不能打斷領導們的講話，說我的轉寫還沒有完成。。。所以轉寫用時在實際應用中也是非常重要的。

黑幕4：不同場景下的效能普適性？

很多廠商宣傳達到97%、98%時，不會明確給出應用場景，誤以為所有使用情況都有97、98，產生誤導。很多測試集都是近場和靜場測試結果。很明顯，我們大多數時間不會在安靜的屋子對著手機或者麥克風自言自語。我們在街上，地鐵裡，不太安靜的工作環境甚至在大會堂的講話功放的準確率可能還不到80。所以，這種語音識別工具我們用個錘子啊！（忘了錘子也沒得用了。。。）

黑幕5：免費和收費版效能差距？

一些廠商開放平台上的演算法只是落後版本，比如你在某種場合用的不好，他會叮的一聲給你蹦個彈窗：「快速解鎖xx模式，識別效率提高99%喲」。然後換個場景又回再來一遍解鎖其他場景。先不說提高多少，效果能有多好，但是這種用個辦公軟體都要當個人民幣玩家讓人想想就會十分不爽！

你怎麼看當前中文語音識別技術在國內的應用？

梯形書櫃，你怎麼看？

BAT電話面你怎麼看？

微軟收購Xamarin，你怎麼看？

你怎麼看當前中文語音識別技術在國內的應用？

梯形書櫃，你怎麼看？

BAT電話面 你怎麼看？

微軟收購Xamarin，你怎麼看？

相關推薦

BAT電話面你怎麼看？