句法分析利用句子中詞與詞之間的關係來表示詞語的句法結構資訊,如「主謂」、「動賓」、「定中」等。本次發布的兩款應用工具分別從隱式和顯式兩方面利用句法結果,幫助開發者們更快速便捷地引入句法特徵來提公升任務效果。
ddparser介紹
了解ddparser詳情:
句法分析給出了詞之間的語法結構,這種表示不受詞之間距離限制,可給出長距離詞之間的依賴,如圖1所示。但該表示相對複雜,需要開發者有一定的自然語言處理背景,了解句法分析任務及標註標準。
圖1 句法分析例項
為了降低句法分析使用門檻,本次發布兩款基於句法分析的簡單易用的應用工具,分別為:
工具一:基於句法分析的隱式向量表示工具
常用的句子表示模型(如序列表示模型lstm)基於順序上下文給出當前詞的表示,其會受限於詞之間的距離,對長距離上下文依賴變弱。句法分析從語法結構上給出當前詞依賴的上下文,尤其可給出長距離依賴的上下文,其彌補常用句子表示模型的不足之處。
本次發布的基於句法分析的隱式向量表示工具將句法資訊編碼進隱式向量表示中。如圖2中「基於句法樹的圖注意網路」所示,本文將依存句法分析樹看作乙個有向無環圖,在該圖上應用基於圖的注意力網路機制獲取包含句法資訊的表示。該向量表示與基於序列模型得到的向量表示連線在一起作為輸入文字最終的向量表示,增強了輸入文字的表示能力。其在下游任務中的使用方式見圖2。
圖2 基於句法分析的隱式向量表示及應用示意圖
本工具應用於事件抽取、相似度計算任務,基於句法分析的隱式向量表示帶來了顯著效果提公升。具體指標見表1。
表1 句法資訊在事件抽取和相似度計算任務上的表現
在事件抽取任務上,為了更好地說明句法分析的作用,表2給出相關例項。由此可見,引入句法資訊後,模型能夠學習到觸發詞與相關角色的句法路徑,進而提公升了角色識別的召回率。
表2 例項展示:句法資訊引入事件抽取任務
在相似度計算任務上,引入句法資訊主要解決字面重合度高,但結構相同/不相同導致的語義一致/不一致的資料的計算問題,具體例項見表3。
表3 例項展示:句法分析引入相似度計算任務
工具二:基於句法分析的顯式結構表示工具
句法結構依賴於句子表述方式,語義同義但表述形式不同的兩個句子其句法結構往往差異較大。如圖3中例項所示,語義單元「納達爾擊敗梅德韋傑夫」在3種不同的表述形式下對應3種不同的句法結構。
圖3 「納達爾擊敗梅德韋傑夫」三種不同表述形式對應的句法分析結構
為了方便開發者更直接地獲取輸入文字中的結構化語義單元,本文研發了基於句法分析的顯式結構表示工具,其從文字表達的語義角度出發,直接提取文字中的主要內容並以結構化形式輸出。如圖4所示,輸入文字為「9月9日上午納達爾在亞瑟·阿什球場擊敗俄羅斯球員梅德韋傑夫」,本工具抽取出主謂賓結構(納達爾、擊敗、梅德韋傑夫)、名詞修飾結構(俄羅斯、球員)等。
本工具圍繞實體詞定義了7種常見結構,覆蓋了句法分析可表示的範圍,如主謂賓結構、動補結構、名詞修飾結構等。
圖4 顯式結構表示工具輸出示例
本工具有多種應用場景。這裡將介紹3種應用場景,如圖5所示。
圖5 顯式結構表示工具應用場景
百度NLP依存句法分析工具DDParser開源啦
圖1ddparser能做什麼 通過依存句法分析可直接獲取輸入文字中的關聯詞對 長距離依賴詞對等,其對事件抽取 情感分析 問答等任務均有幫助。在事件抽取任務中,我們通過依存分析結果可提取句子中所包含的各種粒度的事件,如 納達爾擊敗梅德韋傑夫 納達爾奪得冠軍 納達爾奪得2019年美網男單冠軍 相應的,在...
百度深度學習開源平台 PaddlePaddle
谷歌 tensorflow 專案負責人 rajat monga 谷歌 tensorflow 專案負責人 rajat monga 接受了 採訪,他談到了目前 tensorflow 的進展情況,以及目前在中國的影響力。tensorflow 是谷歌基於 distbelief 進行研發的第二代人工智慧深度學...
百度開源高效能RPC框架 sofa pbrpc
使用sofa pbrpc只需要三步 樣例 參見 sample echo 定義協議只需要編寫乙個proto檔案即可。範例 echo service.proto package sofa.pbrpc.test option cc generic services true message echoreq...