大咖分享 百度語義技術及應用全解

2021-09-29 15:09:41 字數 1622 閱讀 1910

本報告提綱分為以下3個部分:

· 語義表示

· 語義匹配

· 未來重點工作

計算機理解語言是乙個具有很大挑戰的問題。人類在理解語言的過程中,除了語言符號本身的識別,還包含符號背後的語義和知識。舉個例子,當人看到「計算機」這個符號時,腦子裡能迅速浮現出計算機的畫面以及和計算機相關的知識和概念,但是這對於計算機就比較困難。所以如何讓計算機能夠表示語言是研究的重點,讓其既能夠蘊含語義資訊又可以計算。

當前主要有兩類方法,一是基於形式化規則的方法,如通過構建語義關係網路來描述語義的資訊;二是基於統計的方法,包括主題模型、word embedding等技術。

bert的核心思路還是大力出奇蹟,它利用了大規模的無監督資料,同時借助transformer這種高效能的encoder的能力,在mask建模任務上做了一些優化,導致這個效果能夠在各個任務上顯著提公升。

我們採用20億搜尋的query,通過lstm模型做單向language model的預訓。我們發現在slu任務上,在各個垂類上樣本數的增加非常顯著,從10個樣本到2000個樣本。但遺憾的是,當時研究的是乙個超小規模資料上效果,即2000的資料,在2萬甚至是20萬的資料上的表現並沒有研究,同時在其他應用的通用性上的研究也不夠充分。

bert提出後,我們發現乙個問題,它學習的還是基礎語言單元的language model,並沒有充分利用先驗語言知識,這個問題在中文很明顯,它的策略是mask字,沒有mask知識或者是短語。在用transformer**每個字的時候,很容易根據詞包含字的搭配資訊**出來。比如**「雪」字,實際上不需要用global的資訊去**,可以通過「冰」字**。基於這個假設,我們做了乙個簡單的改進,把它做成乙個mask詞和實體的方法,學習這個詞或者實體在句子裡面global的訊號。

另外,我們還做了query和網頁正文的建模,由於query中每個詞都有一定的使用者意圖,所以在模型建模時,會考慮query中每個詞被title和正文覆蓋的情況,並基於matching matrix匹配方法計算。此外,搜尋架構也做了配合改進,搜尋也上線了基於gpu和cpu的異構計算架構。

上圖是乙個案例,「羋殊出嫁途中遇到危險」,我們後來做了一些分析,發現「危險」和「投毒」有很強的語義關聯,就把這個結果排了上去。

接下來我們會在通用語義表示方面進一步研究與突破,除了如何充分地利用先驗知識,利用一些弱監督訊號外,模型方面也會進一步探索創新。技術拓展上,跨語言、多語言表示,面向生成、匹配等任務的表示,面向醫療、法律等領域的表示,多模態表示等都是我們的一些重點方向。

劃重點!!!最強預告!!!

百度技術沙龍 自然語言處理技術及應用筆記整理

nlp的挑戰 需求識別 知識挖掘 使用者引導 結果組織和展現.理解文字的目標是理解使用者 使用者建模 使用者行為 實體名詞挖掘 分類 需求 ontology建設 query理解。dnn用於軟聚類 parser技術用於複雜query理解。基於shift reduce的依存決策分析演算法 多層的邏輯推理...

分享讓百度快速收錄的十大秘籍

分享讓快速收錄的方法現在我們通過搜尋引擎來的流量大部分是,那麼現在來和大家討論下讓快速收錄的方法,同樣都是新上bxrkshrdcy線的站點,為什麼有的人是秒收,有的人可能要等很多時間才能收錄,其實這些都是有方法加快收錄我們 的。一 上線之前做好 內容 很多朋友匆匆的讓 上線,內容,布局等等都沒有完全...

分享百度文庫提交成功的八大因素

我做文庫已經有兩個多月了,今天也是第二次以博文的形式跟大家分享經驗,應該比第一次會更成熟一些,但是個人的能力畢竟是有限的,另外我的seo優化經驗也不多,可能提出的觀點也不是很全面,還希望大家多包涵。兩個月的經驗其實不算多,與大家分享文庫提交的成功率,是為了跟大家一起更深入 起到拋磚引玉的作用。我認為...