編輯 | tgs
發布 | atyun訂閱號
自2023年ibm推出第一台語音識別機器以來,語音識別科學已經走了很長一段路。這已經不是什麼秘密了。
隨著技術的發展,語音識別已越來越多地滲透到我們的日常生活中,這些語音驅動應用程式包括amazon的alexa, 蘋果的siri,微軟的cortana或google的許多語音響應功能。
從我們的**,計算機,手錶甚至冰箱,生活中的每乙個新的語音互動裝置都會加深我們對人工智慧(ai)和機器學習的依賴。從語音識別來看,真正的人工智慧距離我們還有多遠?
簡單了解語音識別
在我們的生活中,語言是傳遞資訊最重要的方式,它能夠讓人們之間互相了解。人和機器之間的互動也是相同的道理,讓機械人知道人類要做什麼、怎麼做。互動的方式有動作、文字或語音等等,其中語音互動越來越被重視,因為隨著網際網路上智慧型硬體的普及,產生了各種網際網路的入口方式,而語音是最簡單、最直接的互動方式,是最通用的輸入模式。
在2023年,貝爾研究所研製了世界上第乙個能識別10個英文數字發音的系統。2023年英國的denes等人研製了世界上第乙個語音識別(asr)系統。大規模的語音識別研究始於70年代,並在單個詞的識別方面取得了實質性的進展。上世紀80年代以後,語音識別研究的重點逐漸轉向更通用的大詞彙量、非特定人的連續語音識別。
90年代以來,語音識別的研究一直沒有太大進步。但是,在語音識別技術的應用及產品化方面取得了較大的進展。
自2023年以來,得益於深度學習研究的突破以及大量語音資料的積累,語音識別技術得到了突飛猛進的發展。
深度學習研究使用預訓練的多層神經網路,提高了聲學模型的準確率。微軟的研究人員率先取得了突破性進展,他們使用深層神經網路模型後,語音識別錯誤率降低了三分之一,成為近20年來語音識別技術方面最快的進步。
另外,隨著手機等移動終端的普及,多個渠道積累了大量的文字語料或語音語料,這為模型訓練提供了基礎,使得構建通用的大規模語言模型和聲學模型成為可能。在語音識別中,豐富的樣本資料是推動系統效能快速提公升的重要前提,但是語料的標註需要長期的積累和沉澱,大規模語料資源的積累需要被提高到戰略高度。
今天,語音識別在移動端和音箱的應用上最為火熱,語音聊天機械人、語音助手等軟體層出不窮。許多人初次接觸語音識別可能歸功於蘋果手機的語音助手siri。
語音識別與人工智慧
人工智慧由約翰·麥卡錫於2023年首次提出,可以定義為「機器展示的人類智慧型」。在最初用於分析和快速計算資料的地方,人工智慧現在允許計算機執行通常只有人類才能執行的任務。
語音識別作為常見的人工智慧應用,它可以將口語單詞轉換為文字,對文字進行處理以得出其含義。由於人類經常以口語,縮寫和首字母縮寫講話,因此需要對自然語言進行大量的計算機分析才能產生準確的轉錄。語音識別技術面臨的挑戰眾多,但範圍正在縮小。
其中包括克服不良的錄音裝置,背景噪音,難以理解的口音和方言,以及人們各種聲音的變化。教機器學習人類讀口語的能力尚未達到完美。聆聽和理解乙個人說的話遠不止是聽到乙個人說的話。作為人類,我們還通過人的眼睛,面部表情,肢體語言以及語音中的語調和語調,解讀話語的含義。語音的另乙個細微差別是人類傾向於縮短某些短語(例如「我不知道」變成「不知道」)。這種人為的傾向對語音識別中的機器學習提出了另乙個挑戰。
機器正在學習「偵聽」口音,情緒和曲率,但是還有很長的路要走。隨著技術變得越來越複雜,特定演算法使用了更多資料,這些挑戰正在迅速被克服。隨著人工智慧的發展以及可以輕鬆挖掘用於機器學習目的的大量語音資料,它成為下乙個主要互動介面也不足為奇了。
人工智慧是什麼?
60年來,人工智慧經歷了從爆發到寒冬,再到野蠻生長的歷程。網際網路預言家 凱文 凱利提出,人工智慧將是未來20年最重要的科技。連00後都在了解人工智慧。60後呢?70後呢?80後呢?90後呢?為什麼人工智慧現在這麼火呢?在大資料時代,你 來 過,就一定會留下痕跡。知人知面更要知心,人工智慧更了解你的...
人工智慧是什麼,機器學習就是人工智慧嗎?
人工智慧是電腦科學的乙個分支,目的是開發一種擁有智慧型行為的機器,史丹福大學對機器學習的定義是 在沒有明確程式設計指令的情況下讓計算機採取行動的科學。想要開發智慧型機器,就需要借助人工智慧研究人員的幫助。但要讓其具備真正的智慧型,就需要聘請機器學習專家。2.大資料攜手人工智慧,高校人才培養面臨新挑戰...
人工智慧發展的要素是什麼,人工智慧市場的人才現狀
中國已成為全球人工智慧的發展中心之一,但面臨著巨大的人才缺口,隨著越來越多的高科技公司開設機械人或者人工智慧業務分部,人工智慧或機器學習類專業人才正在變得炙手可熱,人才 也是水漲船高。甚至在矽谷,剛畢業的人工智慧領域博士能拿到超過百萬美元的年薪。目前國內人工智慧相關技術崗位,主流年薪也在30 60萬...