聊天機械人已死,為什麼騰訊還要打造自己的智慧型客服?

2021-09-17 18:18:13 字數 4169 閱讀 5358

\
\\

在reddit上,關於nlp技術突破的問題也曾引起熱烈討論,有人認為,nlp領域的突破狀況令人失望,人們研究的熱點紛紛轉向了gan 和強化學習。另有觀點認為「近年來nlp在技術和商業化上少有實質性突破進展」。

\\\\

\\

\

陳松堅:小知是從去年7月開始啟動研發的智慧型客服系統,經歷10個多月的核心功能打造,現已落地多個應用,日均回答百萬量級。小鈦的主要的技術特點有三個:

\\ 依託大資料平台實現問法挖掘,問法改寫等冷啟動階段的必需工具,降低客戶準備問答庫的難度和運營人力投入。\\t

基於深度學習和遷移學習模型,實現小語料(平均每個知識點下的相似問法數最多3條)下的模型訓練和準確匹配。同樣也是提高專案啟動語料不足情況下問答準確率不佳的問題。\\t

結合行業知識圖譜多輪對話模型實現問答式體驗,而非一般的搜尋式體驗(追問多條問句)。\

目前落地在政務、零售、服務等多個行業,上線時間僅2個月,已落地了數套成熟行業解決方案,成長勢頭很好,也說明這塊市場的價值。在這些應用上,我們的解答率都達到90%以上,並且部分實現了類問答的體驗而非搜尋體驗。

\\ 實際以公安行業為例,政務領域的智慧型問答存在乙個問題就是涉及場景較複雜,如戶口業務就分為遷入和遷出,遷入分為市外遷入和市內遷移,而市外遷入又分為父母投靠,子女投靠,應屆畢業生落戶,積分入戶等。如果使用一般的問答服務,使用者無法直接提供完整的自身情況說明,此時系統會返回3-5條相似知識點,但一方面無法系統地覆蓋上述的這些分支情況,另一方面搜尋式的產品體驗並不友好。而基於知識圖譜,我們實現了對話式體驗,如下圖所示。另外由於多輪對話是帶狀態的,所以也系統會記憶上下文,並簡化對話流程。

陳松堅:一方面是看到了這個市場的潛力仍然未真正地被開發,尤其是某些垂類下布局相對還比較空白,存在成長空間。比如我們最早打的政務行業。另外,行業無論從技術上還是業務上都遠未達到成熟的狀態,目前來看還是「百家爭鳴」的階段。第三,經濟下行趨勢明顯,企業「火燒眼眉」之下降低成本成為第一剛需,此時,誰能做出使用便利,問答準確的問答機械人,就會有很大的機會。

\

\\

infoq:小知和市面上其他智慧型客服產品有什麼不同之處?優勢是什麼?

\\

\

陳松堅:相比市面上其他智慧型客服產品,小知絕對屬於晚輩了。後發者的優勢往往在於客戶經過市場充分教育後,其痛點進一步明確,可以更精確地把握客戶的需求。技術優勢上面已經提到了,主要是結合深度學習和知識圖譜的問答技術,非技術的優勢主要體現在我們打造了完整的資料閉環,一方面是在系統上將問答庫後台和標註後台進行了打通,另一方面配備了大量熟練的標註團隊能夠勝任各個行業的問題標註工作。

\

\\

智慧型客服產品開發和落地有通用的解法嗎?\\

infoq:智慧型客服產品目前存在哪些技術和非技術的難點?能夠分解為哪幾部分問題?

\\

\

陳松堅:智慧型客服是非常綜合的ai系統,幾乎涉及nlp領域所有技術點,甚至還包括語音和影象的處理。但從需求上來講,可以分為三個板塊: 1.如何學習知識  2.如何問答  3.如何持續學習。

\\ 其中第1點關注點和難點在於如何自動構建知識庫(包括但不限於問答庫、知識圖譜、領域詞表等)。第2點重點關注和解決使用者問題的意圖識別,答案選擇以及如何結合上下文進行多輪互動。第3點則是持續運營的需要,涉及的挑戰包括未知問題識別,知識的自動更新和補充。

\\ 非技術的難點主要體現在專案推進的過程中如何控制客戶的期望,避免需求失控。

\

\\

infoq:這些問題是否有通用的解法?分別有什麼解決思路?

\\

\

陳松堅:要具體問題具體分析,比如領域詞典生成,未知問題識別等可以做到跨領域通用,但是意圖識別,多輪對話則由於不同領域下的問答形式不同,關注重點不同,存在一定的差異。比如問答可以通過問句匹配來解,也可以通過閱讀理解技術直接從篇章中抽取答案,也可以基於結構資料庫來獲取。我們的系統整合所有的解決方案,然後根據實際的需求靈活配置。

\

\\

nlp技術落地到底有多難?\\

infoq:從您的角度來看,nlp技術(及產品落地)的發展和演進可以分為哪幾個階段?當前處於什麼階段?封閉領域的智慧型問答有沒有可能突破到更開放的領域?

\\

\

陳松堅:從大的範疇上看,nlp技術的發展可以分為三個階段,第一階段從上世紀50年代到80年代,以語言學和規則為核心,主要靠語言學家設計的語法規則來解決問題,此時的人工智慧也主要做的是推理方面的研究;而80年代之後,隨著計算機算力增強和資料逐步得到收集,統計學派逐漸佔據了主流,nlp也進入了第二階段,即以傳統機器學習模型為核心,憑藉最大熵,crf,lda等原理優雅的模型,在語音識別,文字挖掘等一系列的任務中取得優秀的效果,在這個背景下各種nlp應用如語音識別,翻譯,文章主題挖掘等被廣泛落地;第三階段就是目前所在的深度學習階段,其實其本質上還是統計學派,即經驗歸納的思想,但區別於傳統的nlp模型,深度學習模型能夠對語言單元(字詞)進行向量編碼,然後結合各種網路結構(尤其是rnn及其變種完美匹配語言的時序建模要求)進行表示學習(其實也是特徵提取的過程),明顯降低了各種nlp應用,如語音識別,翻譯等的錯誤率,進一步提公升了nlp應用的實用率。

\\ 封閉領域和開放領域的智慧型問答其實各有難點,並不見得是進而達之的關係。封閉領域的難點是訓練語料少,模型容易過擬合,但是問題相對集中,也可以利用一些領域特性作為先驗知識;開放領域則相反,難點是問題發散,需要構建龐大的通用知識圖譜,但是語料充足,採用的方法騰挪空間較大,比如斯坦福的基於wikipedia做的通用問答專案drqa,用到的就是閱讀理解的技術。

\

\\

)?在reddit上,關於nlp技術突破的問題也曾引起熱烈討論,有人認為,nlp領域的突破狀況有些令人失望,人們研究的熱點紛紛轉向了gan 和強化學習。有觀點認為「近年來nlp技術在技術和商業化上少有實質性突破進展」,這是否符合您在行業中看到的情況?在您看來,nlp技術在商業化或落地方面的進展是成功還是失敗,為什麼?當前nlp技術在技術和商業化上分別面臨怎樣的瓶頸?突破困境的關鍵是什麼?

\\

\

陳松堅:我們對技術往往短期期望過高,而長期期望過低。nlp在進入深度學習階段之後模型的泛化能力得到大幅提公升,但是本質上依然是擬合經驗資料的思路,也就是說我們現在的機械人非常善於歸納,但推理能力、對知識和常識的利用能力很弱。但是我們同時還是要看到,近年來nlp應用,尤其是翻譯,寫作,對話機械人等,在模型增強和知識圖譜建設完善的過程中,在特定的場景下,滿足了大部分人的使用需求,這是要肯定的。常說nlp是人工智慧皇冠上的明珠,其難點就在於語言是思維的外化,我們現在的做法是利用上下文環境,從外部進行建模,而缺少對內部(思維)的研究。而外部建模的方法要求海量的標註語料進行訓練(不同任務的標註不一樣),代價太大,這是瓶頸之一。另外無法對知識和常識進行表示,無法進行有效推理,這是瓶頸之二。我個人認為突破點在於利用深度學習模型進行知識表示和關係表示,並融入到原模型中求解。這個方向已經有一些企業如google/ deepmind在探索,我們非常期待加入到摘取明珠的戰役中。

\

\\

infoq:您認為未來nlp技術在哪些場景下有較大的商業化應用潛力?

\\

\

陳松堅:上面提到的翻譯、對話、寫作會有。更具體的說,基於翻譯的智慧型硬體,基於對話機械人的智慧型客服,家居/車載/個人助理等垂類機械人,以及寫作機械人在即時新聞,專業文書寫作上的應用。

\

\\

採訪嘉賓\\

聊天機械人已死,為什麼騰訊還要打造自己的智慧型客服?

在reddit上,關於nlp技術突破的問題也曾引起熱烈討論,有人認為,nlp領域的突破狀況令人失望,人們研究的熱點紛紛轉向了gan 和強化學習。另有觀點認為 近年來nlp在技術和商業化上少有實質性突破進展 陳松堅 小知是從去年7月開始啟動研發的智慧型客服系統,經歷10個多月的核心功能打造,現已落地多...

聊天機械人

我你好!小愛同學 小愛你好,很高興認識你!charset utf 8 css document 休息一會 sleep 1 獲取 使用者傳送的 訊息 可選 後端 對於 使用者發過來的 時候 是否 使用 可選 根據 傳送 過來的 訊息 返回 不同的內容 messagelist array 床前明月光,有...

機械人聊天軟體c C 聊天機械人

例項簡介 c 聊天機械人 例項截圖 核心 3181078聊天機械人 原始碼必讀.pdf 聊天機械人 1.ico 聊天機械人 1.ico form1.designer.cs form1.cs form1.resx program.cs properties assemblyinfo.cs resour...