中國人工智慧學會通訊 人機對話系統體驗提公升之道

2021-09-23 02:24:21 字數 2751 閱讀 5064

剛才周老師介紹了深度學習在nlp應用的方法和挑戰,劉教授介紹了終身學習,黃教授講的內容,讓我想起一句話是「謠言止於智者」,我想談一下在自然語言處理的應用中碰到的一些挑戰,特別是人機對話中怎麼提公升使用者的體驗。

我先簡單介紹什麼是人機對話系統,再給大家介紹一下我們通過四五年的實踐之後,總結出來的對於體驗至關重要的三點。第一是全雙工的互動,而且是要把語音和自然語言技術融合在一起。第二是從語義到語用不能僅僅看一句話的字面含義,要結合上下文去理解真實的會話含義。第三是閒聊到知性,不能只是閒聊,我們聊天時除了打發時間之外還希望獲取知識、獲取收益。

這就是乙個簡單的對話系統的例子,這個裝置會裝在車內的後視鏡,讓司機可以通過語音去打**,或者導航,可以找餐廳,可以聽歌。從技術上來講,它是經典的人機對話系統,這個對話系統由幾部分組成,第一就是語音識別,就是要聽清使用者的話;然後是口語理解,就是要聽懂使用者的話;再通過對話管理策略生成應答;再用自然語言的方式表達出來;最後再通過語音合成技術把它播報出來。有距離的情況下,由於不能直接去摸這個裝置,需要語音喚醒。在喚醒之前還要對遠講的做一些回聲消除等技術。再通過語音和聲紋識別,我們知道這個話的內容,說話人的性別、年齡,甚至是心情。我們拿到文字以後,去做口語理解,不能僅僅是看文字,要通過看語境,還要結合使用者的屬性,結合一些知識,把這些整合在一起以後,再生成乙個應答,這個應答以語音合成的方式給表達出來。生成應答的過程中,我們通過推薦,需要把第三方的內容和服務整合在一起,這是比較完整的人機對話的系統和架構。

在人機對話系統裡面,比如通過語音控制空調,最開始是搖控器的替代版本。但我們希望裝置更像是乙個專家。專家跟助手的區別,助手是使用者說什麼就做什麼,而專家應該是有知識的,可以回答問題,使用者只需要表達淺層的需求,具體怎麼做由專家幫著去執行。比如使用者說睡覺,空調可以根據使用者的習慣進行設定。

如果我們去做對話系統,如兒童教育的機械人,或者在車裡通過語音去做控制、去做互動,或者家裡通過語音來控制電視、控制空調等。怎麼提高使用者體驗?從公司成立到現在一直在做這方面工作,而且致力於做產業化。我們提煉出三個要點,第一是全雙工互動,基於語音和自然語言的理解,緊密耦合。不能讓語音識別只是輸出一串文字,然後在文字基礎上去做理解。因為文字有可能出錯,要識別這個話是誰說的、這個話裡面有沒有停頓、停頓多長時間、重音在什麼地方。

最重要的困難在什麼地方?比如使用者說「導航到.....東單......公園......嗯啊......」說話過程中中間會有一些停頓,還要識別出來噪音,客戶端不需要做任何處理。我們希望把前端的語音頻號資訊傳遞到後端,再綜合自然語言理解結果,去做最終的判斷。語言的資訊包括停頓時長,還有聲音的能量值,還有上下文的資訊,如果電視放一些聲音,或者旁邊人說話的聲音,不可避免地被裝置採集到,然後轉成文字。我們通過這些特徵,可以做全雙工的,最接近人跟人對話的體驗。

第二是從語義到語用。語義往往是字面上的含義;而語用主要是研究人和人對話過程中話語的含義。比如,你說一句話,你的意思絕對不是文字表面上的意思,就像今天的天氣,如果女生說好冷,你會怎麼理解這個話?你會說是挺冷的,還是說她希望你握著她的手?比如我們開會時,領導說乙個字「燈」,到底是開燈的意思還是關燈的意思?從文字上理解不出來,要結合語境,還要看這個燈現在是開著還是關著,還要看房間的亮度。語用是存在在人和人的對話過程中。當我們做到人和裝置對話時,我們最終目的是想讓這個裝置像乙個人一樣可以對話,這時語用也是非常關鍵。目前,語用在學術界,特別是在計算語言學上,研究得不是很多,而做純語言學的研究得比較多一點。

如果我們把語用放到人和裝置互動的環境下,到底有哪些語境?說話的時間、地點還有場所,場所可能是在車上、家裡,甚至是戶外。比如對於空調來說,室內的溫度,室外的溫度,這也是非常關鍵的物理語境資訊。空調控制裡面製冷模式,或者制熱模式,如果口音不是太準,很有可能會識別錯誤,識別錯了對於使用者體驗是非常不好的。如果我們結合一些語境資訊,說這句話時看天氣是什麼樣的,是高溫還是低溫,還有裝置是在南方還是在北方,這時就很容易判斷使用者的意圖是想制熱還是製冷。還有裝置上的顯示,因為我們裝置帶螢幕,螢幕也是很重要的語境,比如我們跟電視互動時,你說「要看《甄嬛傳 》」,會顯示出來各種版本的。如果下了指令,裝置執行不了,錯誤資訊也是乙個上下文。最難的上下文是知識,這是目前最大的挑戰。使用者畫像也是種知識,使用者的性別、年齡。還有機器畫像,把裝置當成乙個人,肯定會有屬性,有虛擬化的屬性;有性別、年齡、喜好;有各種資訊,甚至大學時有沒有談過戀愛,都是裝置屬性。另外,如果我們做中控,最重要的語境是中控關聯的裝置,每個裝置的狀態,每個裝置的能力,如果對中控說「我要睡覺」,中控要決定是不是關窗簾,是不是要關燈,是不是要把空調設成睡眠模式,不需要你乙個乙個去說,只要表達出你的意圖就可以。

第三,我們一再強調知識,強調知識的重要性,我們通過知識去聊天、去做問答、去做推薦。具有知識性的聊天,有兩個非常重要的技術,乙個是微軟亞洲研究院做的docchat,可以從文件裡面去抽取聊天應答;第二是華為李航老師團隊做的genqa,可以在通過深度學習模型生成聊天應答時,去訪問知識庫中的知識。此外,基於知識庫,還可以做自動問答,以及個性化推薦。

最後,介紹下我們對人機對話系統做產業化的嘗試。從產品形態來講,我們提供雲端芯的形式,我們在端這一塊會提供完整的解決方案,最後在晶元這一級提供語音識別能力。因為語音識別是依賴訊號這一層的,通過完整的雲端芯方案可以有非常好的體驗。

我們還提供語義雲服務,支援的領域非常多,基本上覆蓋了各種裝置上的語義需求。我們也支援在各個裝置上的解決方案,包括在電視、車機、音箱、家居,我們做了非常多的優化,也有很多客戶。重點講一下智慧型家居,在語音空調這方面,我們是世面上唯一量產出貨的**商,格力、美的、長虹、海爾都在用。在車聯網方面,除了車的車內後視鏡之外,還有在大屏中控,也可以通過語音去互動。我們跟合作夥伴已經有超過800萬的後裝市場出貨量,佔了70%左右的市場份額。

(本報告根據速記整理)

《中國人工智慧學會通訊》 2 24 結 果

我們將人類 bpl 以及其他模型在 5 個概念學習任務上的結果並列進行對比,檢驗僅從乙個或一些樣例得到的不同形式的泛化 見圖 5 的樣例任務 所有的行為實驗都是通過亞馬遜土耳其機械人 mechanical turk 進行的,實驗的詳細流程請參考 s5 章節。主要實驗結果總結在圖 6 中,額外的殘缺分...

《中國人工智慧學會通訊》 3 28 討 論

近年來,各種型別的 機械人層出不窮,人機互動控制策略對於 機械人實現臨床應用意義重大。通過上文的回顧分析,可以看出,現有人機互動控制依然存在如下問題。目前還不存在一種通用的人機互動控制策略。針對患者損傷部位及損傷程度採用合適的控制策略是常規的方案,但正如前文所述,現有 機械人系統的互動控制系統通常缺...

《中國人工智慧學會通訊》 1 32 詞嵌入

在此基礎上,也有研究者關注如何利用已有的知識庫來改進詞嵌入模型。wang 等人 5 結合知識圖譜和未標註語料在同一語義空間中來聯合學習知識和詞的向量表示,這樣可以更有效地實體詞的嵌入。rothe等人 6 直接利用 wordnet 知識庫的詞和語義集的關係來學習詞嵌入,能更好地利用已有的知識庫。該 獲...