語音識別行業正面臨新一輪的洗牌。
但隨之不久,蘋果、google和微軟都選擇了擺脫nuance的依賴,自建團隊開發語音業務。在那之後,nuance的市場份額節節**,2023年還高達60%的市場份額,一年時間縮水一半只剩31.1%(source:research and markets)。相比之下,google語音識別的市場份額增長明顯。
我們從多個角度分析。
1.語音識別新架構:用做影象的方法做語音
近些年來,我們發現在影象領域有乙個明顯的發展趨勢:越來越深的卷積神經網路層級(cnn),從最初的8層,到19層、22層、乃至152層的網路結構。而隨著網路結構的加深,imagenet競賽的錯誤率也從2023年的16.4%逐步下降到3.57%。
imagenet競賽中,越來越深的cnn不斷重新整理著其效能
那麼,深度學習在影象領域的進展,是否能夠在語音識別上有所突破呢?
通常情況下,語音識別是基於時頻分析後的語音譜完成的。如果將卷積神經網路的思想應用在語音識別的聲學建模上,我們就可以把時頻譜當作一張影象來處理。而由於卷積神經網路的區域性連線和權重共享的特點,它具有很好的平移不變性,所以可以將它應用在語音識別中,而且還能克服語音頻號本身的多樣性(說話人自身、以及說話人間、環境等)。
deep cnn語音識別的建模過程
但這裡遇到乙個問題,雖然在imagenet競賽中得到廣泛關注的deep cnn結構能夠顯著提高效能,但由於無法實現實時的計算,其很難在產品模型中得到實際的應用。
乙個解決方案是借鑑residual連線的思想,訓練乙個數十層的包含residual連線的 deep cnn,以用於工業產品中。
模型結構採用:deep cnn + deep lstm。
建模方式:基於ctc的端對端建模。
2.新架構推動語音大規模產業化
從歷史來看,產品和系統真正的大規模使用和推廣,一般都來自於基礎性的變革和突破。
對於語音識別來說,真正能夠實現大規模使用的系統,一定要滿足:在不同場景、方言下的穩定性,大規模的訓練能力,極短的訓練時間,大大降低的機器耗費。這好比 android 一樣,穩定、支援海量應用和場景開發、開發時間短、開發成本低。
而deep cnn和lstm、ctc結合的架構,在以下幾個方面有顯著的優勢:
1)更強的通用性。使用乙個單獨的演算法完成從任務輸入端到輸出端的所有過程。
2)大規模訓練的能力。能夠在約10萬小時的精準標註語音資料中完成訓練。
3)大大降低服務成本。以ctc為例,它能夠讓語音識別解碼的計算量降下來,光這部分成本就能降低近1倍。
5)效能更優秀。以往語音系統將訓練過程拆解,人為干預多,但效果不一定好。端對端模型減少了人為干預,直接從輸入端到輸出端,一般效能會更好。
6)層數越深,效果越好。引入了深層cnn的概念,語音識別的效能得到顯著的提公升,正如李先剛博士所言:『the deeper , the better』。
3.語音識別以量取勝的同時,也以質取勝
語音識別技術經歷了長達60年的發展。2023年hinton提出了深度置信網路,掀起了深度學習的熱潮。2023年,hinton以及他的學生d. mohamed將深度神經網路應用於語音的聲學建模,在小詞彙量連續語音識別資料庫timit上獲得成功。從2023年開始,微軟的俞棟、鄧力等學者首先嘗試將深度學習技術引入到語音識別,隨後逐漸成為了主流。
而在以深度學習的發展脈絡下,語音識別的準確率和通用性,本質就在於:
資料量的多少,這很大程度來自於搜尋量、使用量的規模;
演算法的優劣,頂級人才在這方面有極其重要的作用;
計算能力的水平,尤其是在大規模產業化和成本因素下,fpga等專業硬體的發展水平也非常重要。
而在這三方面的比拼中,巨頭公司將會佔據極大的優勢,因為它們擁有最多的資料,最頂級的人才以及最強大的計算能力水平。所以當google開放語音識別api 後,在英語語音識別的市場中,google將比nuance有更大的優勢。
4.傳統專利池受到挑戰,競爭回歸技術
這種開放式創新和開放式智財權許可的結合,也許會成為智慧型語音未來的產業核心模式。這也意味著傳統語音的專利池,在快速發展、迭代的語音技術下,在更開放的語音聯盟下,會失去過去的保護作用。
5.人工智慧技術生態的重要作用
當google發布了語音開放api,其對nuance的打擊是致命的。這不僅僅是因為google在產品、技術上的優勢,而且也來自於google強大的人工智慧技術生態,例如以tensorflow為代表的深度學習引擎,因為大量的一線工作人員使用,其對語音識別領域的開發選擇有強大的影響力。
基於上面的分析,我們認為語音識別將進入大規模產業化的時代。而在核心技術和能力的比拼下,語音識別也將進入巨頭崛起,傳統語音公司稍顯沒落的時代。
百度語音識別學習(一)
不積跬步,無以至千里!報錯 speechrecognizer.error audio 音訊問題 和 speechrecognizer.error client 其它客戶端錯誤 導致不成功的原因是沒有是沒有給speechrecognizer傳遞引數,大概有下面這些引數要傳遞 string extra ...
搭乘百度語音識別技術,錄音啦識別率最高可達95
在開會 演講 採訪等多個工作場景中,由於傳統記錄形式對大量快速資訊的收取不足,我們都會運用到錄音來幫助我們記錄。然而,錄音整理卻又成為了一項耗時耗力的工作,平均1個小時的錄音,一般需要3個小時才能夠整理完畢。錄音啦正是一款解決錄音整理難題的軟體。何乙誠創業前,曾是一名資訊保安工程師,我每天都會吸收網...
csharp 百度語音合成
public string api id 3333 你的id public string api record null public string api record format null public string api record hz null public string api k...