可供使用的語音識別有google,
訊飛,openears
,微軟。
這些都是通過網路上了解到的,可能有所差異。簡單的聊一下各個的優缺點。
這是我個人總結各個大家的見解,有可能有所差異。會隨著了解的深入實時更新的 。
google:
介面,通過該
api可以進行中文、英文等語言的識別 優點
: 1,語音識別引擎龐大,識別精度很高,適用於文字語音識別。提供多國語言的語音識別。
2.,任何平台都可以進行訪問,容易使用。 缺點
1,api未開放,未能獲知具體開發細節。 2,
識別引擎位於伺服器端,識別的速度和網路質量有關,識別速度較慢。 3,
待識別音訊的格式、大小、時長的限制。
4,可能有時候政治問題影響 不能訪問
,則影響整體的效能。
microsoftspeech sdk
:微軟公司提供在windows
平台上開發語音識別和語音合成應用程式的開發包,簡稱為
sapi
,內含sr
(speech recognition
)和ss
(speechsynthesis
)引擎,因此可以很方便地在自己的應用程式中新增這些功能。 優點
1,基於com
元件,便於與
directshow
中的元件整合。 2,
語音識別引擎位於本地,便於訪問,識別速度較快。 3,
待識別音訊的大小、時長無限制。 缺點
1,缺少其他平台的支援,僅支援windows
平台。
2,語音識別引擎不夠龐大,識別精準度較低。 3,
僅提供中日英三種語言的語音識別功能。
科大訊飛:
實現基於http
協議的語音應用伺服器,支援語音合成、語音聽寫、語音識別、聲紋識別等服務
,提供基於移動平台和pc
上的語音客戶端子系統,內部整合音訊處理和音訊編譯碼模組,提供關於語音合成、語音聽寫、語音識別和聲紋識別完善的
api(
優點
1,支援平台豐富,各個平台上都有相應的詳細sdk文件
2,語音識別引擎較龐大,對中文的識別精度很高。 3,
具端點檢測功能,便於劃分識別文字的句子。 缺點
1,識別引擎位於伺服器端,須遠端訪問,識別速度較慢。
但是現在部分平台(比如安卓可以實現離線的語音識別了。其他的平台也正在嘗試。) 2,
對語言支援不如google
,目前僅支援中文聽寫。 3,
需要使用1028
埠,在某些地方會有使用限制。 4,
當軟體使用者達到百萬次後,需要開始收費
(這是比較不好的,尤其是比較大的公司使用一定要注意,萬一中間人家不給你返回了,到時候協商就是錢的問題了)。
openears,
試了一下他的demo
,發現只能識別限定的詞,如
up, left, right, turn, go.(
感覺比較適用於遊戲,就是那種控制方向的遊戲,但又不能是那種反應很快的遊戲,因為識別的速度跟不上)
優點: 1,
免費 2,
不依賴網路執行。
缺點: 1
,只能識別限定的詞
對於一些比較根據實時語音的就不方便了。
語音識別的難點
儘管語音識別的研究已有半個世紀了,但現有的語音識別系統仍存在許多困難,還遠遠達不到實用化的要求,主要表現在 1 魯棒性 目前的語音識別系統對環境條件的依賴性強,要求保持測試條件和訓練條件一致,否則系統效能會嚴重下降。2 雜訊問題 現有的語音識別系統大多只能工作在安靜的環境下,一旦在雜訊環境下工作,講...
語音識別的基本方法
一般來說 語音識別的方法有三種 基於聲道模型和語音知識的方法 模板匹配的方法以及利用人工神經網路的方法 1 1 基於語音學和聲學的方法 該方法起步較早,在語音識別技術提出的開始,就有了這方面的研究,但由於其模型及語音知識過於複雜,現階段沒有達到實用的階段。通常認為常用語言中有有限個不同的語音基元,而...
基於語音識別的提醒鬧鐘專案總結
周老師叫我做乙個語音識別的提醒小鬧鐘,功能很簡單 要有qq登入,說出幾點提醒我幹什麼這句話,分離出時間和事件,設定鬧鐘提醒。同時 qq號,提醒時間,提醒事件 要上傳到伺服器的資料庫裡。功能不難,但是學了不少東西,也做了3週多。有幾點需要記錄 1 新增.so檔案時候,必須在build.gradle裡的...