智慧型語音技術是最早落地的人工智慧技術,也是市場上眾多人工智慧產品中應用最為廣泛的。
機器互動的發展過程: 命令列介面(cli) -> 圖形使用者介面(gui) -> 自然使用者介面(nui)
語音互動介面(voice user inte***ce,vui)就是nui最重要的一種。
手機/pc的語音助手 siri、google assistant、cortana、bixby等等
車載語音控制系統
智慧型音響、電視、開關、掃地機、家教機、電視盒子 等家庭電子產品
智慧型穿戴裝置
服務行業互動機械人
其他場景如:醫療場景病歷錄入、教育場景的語音平板、地圖導航
技術萌芽階段:
2023年,第乙個語音識別系統audry誕生
技術突破階段:
2023年計算機第一次開口說話,ibm發布的語音識別系統在5000個詞彙量級上達到了95%的識別率
2023年,世界上首個非特定人大詞彙量連續語音識別系統sphinx誕生
產業化階段:
2023年,語音聽寫產品問世。次年,可識別上海話、廣東話和四川話等地方口音的語音識別系統被成功開發
2023年,美國首先啟動了「全球自主語言開發」專案
2023年,微軟win7整合語音功能
快速應用階段:
2023年,蘋果個人手機助理siri誕生
2023年,首個可智慧型打斷糾正的語音技術問世
2023年,智慧型語音系統集中擴充套件深度學習應用技術終於取得了突破性進展
不斷滿足人的體驗的人機語音互動系統
我們不難發現其實國內做語音喚醒、語音識別、語音合成很多,其實並不是人機互動的難點
而重要的是語音理解,是要能根據已有的資料進行語音理解,理解使用者的這句話的對話意圖,
從而給出對應的操作。
聲紋技術 讓智慧型語音助手真正「認得」自己
9年前,蘋果公司發布了當年最新的智慧型手機iphone 4s,其搭載的智慧型語音助手 siri一經發布,便立即吸引了全世界範圍的關注。siri 的背後,凝聚著音訊處理 語音識別和自然語言處理等多個領域數十年的研究成果。它的出現,讓語音技術首次進入了普通大眾的視野。緊接著,2014年亞馬遜echo橫空...
語音識別技術
中科院聲學所將為奧運會提供語音技術支援 日前,由首信集團 首都資訊發展股份 牽頭 中科院聲學所參與其核心模組研製的 奧運會多語言服務 系統被北京奧組委正式採用。這標誌著聲學所在利用自身科研優勢 積極為 科技奧運 做貢獻方面取得了新的成果。從2002年開始,聲學所就參與了由科技部和北京市科委組織,北京...
語音處理技術
語音的物理基礎主要有音高 音強 音長 音色,這也是構成語音的四要素。音高指聲波頻率,即每秒鐘振動次數的多少 音強指聲波振幅的大小 音長指聲波振動持續時間的長短,也稱為 時長 音色指聲音的特色和本質,也稱作 音質 與語音的波形有關.語音活動檢測 voice detect activity 在使用者沒有...