一款「語音實時轉文字」工具,引出搜狗人工智慧戰略

2021-09-21 08:29:54 字數 2856 閱讀 7339

就在一周前搜狗宣布赴美上市計畫的當天,搜狗公司ceo王小川在員工內部信中寫了這樣一句話:「已經沒有人會懷疑搜狗的生存問題了,唯一的懸念是搜狗是否能在搜尋領域實現顛覆,是否能在人工智慧領域引領重大的創新。」一時間,王小川的「懸念」成為看點——8月8日,搜狗正式迎來了第一款語音技術產品「搜狗聽寫」。

搜狗聽寫的定位是「文字工作者的速記工具」。針對寫文章、採訪錄音、會議記錄、筆記整理 、日常記事等場景,以實現高效記錄和資訊輸入。

搜狗聽寫最亮眼的功能在於「聽寫」和「轉寫」兩種模式。「聽寫」模式下,錄音的同時可以實時識別結果;而「轉寫」模式下則可以離線錄音,錄音完成後一次性獲取文字結果。

除此之外還有諸如支援手機邊聽邊改、無線標重點(藍芽打點)、多客戶端同步、資訊分享、摘要、斷點續錄等人性化功能,另外,針對圖書館、咖啡廳等安靜場所,搜狗聽寫提供耳語識別技術——人說話音量低至30分貝時,依然可以準確識別。

被牛露雲稱作「大殺器」的乙個功能,是搜狗聽寫與搜狗輸入法的個人詞庫已經打通,可以視為**撰稿人之間文字互通的功能。

這樣一款語音識別產品,實際上是基於深度學習技術,以提公升複雜場景識別效果。

說到深度學習,離不開三要素:有沒有大資料,有沒有好的深度學習演算法,以及能不能讓深度學習演算法在深度學習平台上高效運轉。

搜狗語音互動中心技術總監陳偉介紹,關於大資料,「搜狗輸入法每天語音識別的pv是2.6億次,產生的語料規模是22萬小時。」關於演算法,搜狗早期較多使用深度神經網路,隨後嘗試了cn演算法、lstm的演算法,現在轉為cn+lstm+dn的端到端的演算法,可以更高效,準確率更高。

有了資料+演算法,接下來就是運算,如何高效的給出模型以快速部署到線上,關鍵在於搜狗的深度學習平台。「我們可以在自有的深度學習平台上調動上百塊算卡,快速的給出模型。」陳偉說。

實際上,目前市場不乏與搜狗聽寫同型別的語音識別產品,譬如科大訊飛早期推出的訊飛聽見等,相較而言,搜狗聽寫的差異化在哪?搜狗語音互動中心負責人王硯峰答道,搜狗聽寫存在優勢:

1、訊飛對應的產品,如訊飛聽見、訊飛錄音寶等,是不能支援長時間錄音、並且免費轉寫的。而搜狗是首次做了長時錄音設定,並且支援免費轉寫。

2、搜狗的產品是面向垂直場景,包括記者採訪的場景、作家寫作的場景等等。這些功能雖小,但很關鍵,體現在具體場景下,怎麼絞盡腦汁的想盡辦法,幫朋友解決問題。

3、搜狗聽寫支援手機端和windows,還有語音實時轉文字、邊聽邊改、標重點、快速查詢、多端同步、不限時長錄音等人性化功能。

4、依託搜狗日均超過2.6億次的語音請求,搜狗擁有海量的真實語料資料,可以使機器不斷學習,不斷提公升識別準確率,可應用的場景也越來越廣泛。

對於搜狗轉寫是否永久免費這個問題,王硯峰坦言,目前肯定是免費的,至於之後會不會收費,並不完全確定。至少按照現有的產品形態,可以肯定的是,在相當長時間內不考慮使用這個產品來賺錢。「作為一家網際網路公司,通過技術來收取技術服務費不是搜狗的商業邏輯。至少到現在為止,搜狗還不想通過產品收費的方式來進行商業變現。」

搜狗語音互動中心負責人王硯峰 

搜狗聽寫不會是搜狗唯一的一款人工智慧產品,在王小川的規劃中,人工智慧是搜狗下一階段的重要戰略。

早在2023年,搜狗便開始研發智慧型語音技術,並開始布局相關產品的落地。去年8月3日,搜狗舉行知音引擎發布會,取得機器翻譯的突破。跟進當時世界上最領先的機器翻譯的深度學習框架(基於attion的端到端的框架),加上搜狗之前的語音識別基礎,用3個月時間,搭建起知音引擎,成功的應用於去年的烏鎮網際網路大會,該引擎在今年5月份奪得wmt2017中英機器翻譯的全球冠軍;去年11月份,搜狗又推出機器同傳,率先商用化...

這樣的案例很多。比如搜狗去年年底推出的答題機械人「汪仔」,「汪仔」面向搜尋引擎,實時的抓取海量資訊,根據問題的上下文,通過文字的分析、自然語言處理的能力,把使用者想要的答案提取出來。在今年5月份gmis2017會上,「汪仔」與人工速記進行了五輪pk,最終以4:1完勝。

「到現在為止,我們可以很堅定的說,機器的識別能力與人工速記相比,已經取得了本質性的領先。」王硯峰說。

然而儘管如此,語音識別同樣存在挑戰。王硯峰說,語音識別產品未來要解決的,一是遠場的問題——人與人之間的遠距離喊話,大家可以聽得很清楚,但機器的遠距離識別是不好的;二是雜訊聲音識別問題。

彼時搜狗的人工智慧戰略還只是個輪廓:自然互動+知識計算,如今,輪廓變為框架,搜狗已經形成乙個ai技術體系及平台。

平台由四個階層組成,底層是大資料和深度學習技術;倒數第二層是語言的ai、語音的ai、影象的ai——搜狗的核心是語言,影象和語音都是圍繞語言的互動方式;再上一層就是應用;最頂層就是搜狗的輸入法和搜尋兩款主打產品。

至於接下來的規劃,王硯峰透露,搜狗下半年將在硬體、軟體等場景集中一波攻勢:

1、在可穿戴、車載、客廳場景下,自主研發更多的硬體。比如搜狗在上個月已經發布了一款產品「智慧型副駕」,主打的模式就是通過多輪對話、地圖知識和對話能力的結合,打造乙個全程純語音互動的導航。

2、搜狗ai雲平台、ai雲服務將會服務更多的行業夥伴。

3、在更多的垂直場景下做智慧型垂直產品。

基於搜狗的語音能力和自然互動能力,在非巨頭壟斷的行業,搜狗還將嘗試做更多硬體產品的自研、試水、投資,或自己研發,或投資一些公司,以合作的方式把這些產品做出來。

在王硯峰看來,不論是車載市場、家庭場景,還是可穿戴市場,雖然玩家很多,但市場格局還未定型。因此,王硯峰認為搜狗完全有信心拿出更多爆款產品或有量產品,來搶占市場份額。

原文出處:科技行者

工具 轉 好用的語音轉文字工具,總有一款適合你!

訊飛聽見 訊飛的語音識別技術的確是強,無論是識別速度還是準確率都可以被稱之為業界標桿。而且說實話0.33元一分鐘的 真心不貴,乙個小時的音訊才不到20,也就一頓飯錢,對於我來說是完全可以接受的。所以一般別人問起我來都是首推訊飛聽見。迅捷pdf 非vip 使用者最大支援20m,什麼概念呢?拿通話錄音來...

一款好用的lnmp工具

恭喜,lnamp 已安裝成功 wdcp管理面板 http c48 whailun.houdunphp.com 8080 預設使用者密碼 admin wdlinux.cn 檢視伺服器web環境 探針資訊 phpinfo資訊 wdos官網 wdcp管理系統交流論壇 lanmp一鍵安裝包 wdos論壇討論...

工具 推薦一款檢視dll依賴工具

很久沒寫一篇像樣的部落格了,最近乙個月一直忙於專案,也沒時間去總結了,回到家,也就是看看書,沒怎麼總結。不過還是挺興奮的,每天過得還算充實。這裡也算是對五月份的乙個總結吧。因為專案是乙個輪詢簽名系統,在呼叫c 動態鏈結庫的時候,同事給提供了兩個版本的dll,乙個32位的,乙個64位的,名字一樣,引用...