智慧型語音產業現狀

2021-08-15 05:27:08 字數 1961 閱讀 8001

語音互動設計與運營的這兩年裡,事情比較多一直沒空靜下來總結一下做過的事情。我們先從語音產品的現狀總結一下吧。

如果找乙個產品來代表現在國內智慧型語音產品的現狀,我會選擇智慧型語音音響。它聽上去很酷,產品**也適中應該推廣很好。但事與願違,國內智慧型音箱雖然是重要語音互動體驗產品,但銷量並不樂觀。僅阿里的天貓精靈在雙十一以99元火了一把,雙十一銷售達到上百萬臺。其他產品銷量真的慘不忍睹,比如:小公尺音響國內排名第一平均每月銷售4766臺(資料****)。在國外智慧型語音音響已經被廣泛的推廣,amazon的echo,谷歌的googlehome,蘋果的 homepod等紛紛上市搶占市場。以下為amazon的echo銷售成績單

所以國內的智慧型音箱還需繼續努力,而語音技術上在近一年的確得到十足的長進。在gartner的技術成熟度曲線面前,跌宕起伏又迎來了的轉折點。

智慧型語音現在的不足在哪?無論在c端還是在b端帶來的僅是互動的便捷,體驗的提公升嗎?帶著這些問題,我們先看看現在只能語音的不足

技術還不夠成熟:語音識別還需提公升,nlp技術還有待成熟

語音識別主要包括以下步驟:語音頻號處理、靜音切除、聲學特徵提取、模式匹配等環節。由於語音頻號的多樣性和複雜性,系統只能在一定限制條件下才能獲得滿意效果。在真實使用場景中,考慮到遠場、方言、噪音、斷句等問題,準確率會大打折扣。目前業內對於16k取樣率的語音識別普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。

我以前做過的智慧型語音產品:智慧型客服,語音信箱為例,基於通訊網路下的產品。在gsm網路下僅有8k,16bit的取樣率,識別率最高也只能在90%左右,國外據說ibm能做到94.9%。制約因素主要有資料:語音識別除了演算法以外更多的是需要大量的語音標註資料去訓練去優化,去通過對該業務的定製公升學模型,語音模型去提公升,如果沒有資料你何來提公升。還有另外乙個問題就是噪音,噪音分為人生與非人聲。**中的場景是複雜的,背景音很多,降噪技術能做到的非常有限。很多智慧型硬體通過麥克風陣列的確能大幅的減低了背景音的干擾,但沒有呢?比如:手機用的最多智慧型語音的硬體。

nlp技術主要分為三層:詞法分析、句法分析、語義分析,三者之間關係是遞進又相互包含。而中國文化的多樣性,一詞多意,所以語義消岐是nlp技術突破的重大難點。機器在切詞、標註詞性、並識別完後,需要對各個詞語進行理解。由於語言中往往一詞多義,人在理解時會基於已有知識儲備和上下文環境,但機器很難做到。現有手段更多的是通過根據業務,場景定製語言模型,熱詞等方式去對該應用場景的消岐,還是會面對很多問題。

由於近幾年的大資料技術的快速提公升使人工智慧技術得到快速發展,但一領域的技術進步和產業化推進是一種協同關係。只有通過工程化把技術落地,在產品運營過程提公升效果與體驗,才能促進產品廣泛推廣,再根據實際應用中的資料和反饋,反過來推動技術實現突破。

對於未來的機遇在哪?

個人了解的行業資訊有限,但從我獲取到資訊說一下個人的理解。c端智慧型語音正在改變著我們的生活習慣,主要應用在移動裝置、汽車、家居三大場景,用來變革原有人機互動方式;b端則針對垂直行業需求,提公升人工效率,比如智慧型客服,通過智慧型應答解決了80%以上的使用者問題,大量的降低了人力成本和使用者解決問題的銷量。在政企方面比如法院的記錄,醫院的記錄等。

整體的發展中移動網際網路、智慧型家居、汽車、醫療、教育等領域的應用帶動智慧型語音 產業規模持續快速增長。2015 年全球智慧型語音市場規模達 62.1 億美元,同比增長 34.2%。中國智慧型語音產業市場規模也逐步擴大,2015 年 40.3 億元產業規模約佔全球市場份額 10%,且增速顯 著高於全球市場,預計至 2017 年份額佔比將提公升到 14%(資料**於:中國產業資訊網)。

對於快速發展智慧型語音產業,誰能占領更大的蛋糕。對於底層演算法雖然還是很大壁壘,但我跟認可誰有資料誰說了算,誰在該領域獲得最多的資料,這個領域就由誰主導。從這個邏輯bat無疑最大的蛋糕獲益者,那其他的創業者還有機遇,我只能說起跑線還在畫,不用擔憂到終點的問題。

目前中國智慧型語音產業的格局 現狀

1 智慧型語音行業涉及的技術 存在的顯著問題及針對這些問題可採取的手段 其中,有兩項重要的技術 語音識別 自然語言處理,還有一些細節的技術應用,如說話人識別 語種識別 語音合成 音色轉換 語音增強 語音喚醒 聲源定向等,這些都是在語音處理方向要使用到的支撐技術。就語音識別來說,目前存在的顯著問題就是...

全球軟體產業現狀

1 產業狀況 1 世界軟體產業增長率從1991年以來始終保持在10 20 2000年軟體和資訊服務業將成為世界第一大產業,產值將接近5000億美元。2 產業規模方面,全球軟體從業人員已達300萬人,軟體企業有幾萬家。1996年美國整個經濟部門的就業增長率為1.6 而軟體產業部門就業增長率高達11.4...

語音識別發展現狀

語音識別屬於感知智慧型,而讓機器從簡單的識別語音到理解語音,則上公升到了認知智慧型層面,機器的自然語言理解能力如何,也成為了其是否有智慧型的標誌,而自然語言理解正是目前難點。那麼,語音識別發展現狀如何呢?下面就由筆者給您細細道來。語音識別發展現狀 中國我國語音識別研究工作起步於五十年代,但近年來發展...