百度NLP依存句法分析工具DDParser開源啦

2021-10-09 04:39:27 字數 1872 閱讀 2702

圖1ddparser能做什麼

通過依存句法分析可直接獲取輸入文字中的關聯詞對、長距離依賴詞對等,其對事件抽取、情感分析、問答等任務均有幫助。

在事件抽取任務中,我們通過依存分析結果可提取句子中所包含的各種粒度的事件,如「納達爾擊敗梅德韋傑夫」、「納達爾奪得冠軍」、「納達爾奪得2023年美網男單冠軍「。

相應的,在文字問答任務中,我們根據問題的句法樹與答案所在文字的句法樹進行基於樹的結構匹配,可獲取對應的答案。例如,問題「誰奪得了2023年美網男單冠軍」,句法樹見圖2,其答案所在文字的句法樹見圖1,我們通過兩棵樹的對應部分匹配,可得出答案為「納達爾」。

圖2在情感分析任務中,依存分析可用於評價物件的情感極性判斷。如圖3所示,我們根據依存分析結果提取評價物件「羊肉串」的觀點:「羊肉串鹹」和「羊肉串不新鮮」,基於此來判斷該評價物件的情感極性。

圖3利用依存分析結果可獲取詞之間的依賴關係和關聯路徑,如圖4所示例項。前半句中存在兩條路徑「打疫苗」和「在哪兒打」,後半句中存在兩條路徑「打疫苗」和「打在哪兒」,這些路徑資訊可以給相似度計算等其他任務提供更多特徵。

圖4總的來說,依存分析將句子表示為一棵樹,提供了詞之間的依賴關係和關聯路徑,其在句子序列基礎上提供了更多的句子結構資訊,可幫助其他任務從句子結構角度獲取所需資訊。

ddparser的優勢

基於大規模優質標註資料:

ddparser訓練資料近百萬,包含搜尋query、網頁文字、語音輸入資料等,覆蓋了新聞、論壇等多種場景。從應用的角度出發,為了方便使用者快速上手,ddparser共設計了14種依存關係,並著重凸顯實詞間的關係,在隨機資料上las可達到86.9%。

基於深度學習框架,不依賴繁複的特徵工程:

首先,ddparser採用bilinear attention mechanism對句子語義進行表示,代替複雜的特徵工程模式。其次,其輸入層加入了詞的char級別表示,緩解粒度不同帶來的效果下降。網路結構如圖5所示。

圖5呼叫便捷:ddparser支援python一鍵安裝,方便使用者快速使用。

ddparser與其他開源工具的效果對比

ddparser在與訓練資料同源分布的標準測試集合上,las達到92.9%。同時,為了驗證ddparser在中文句法分析的優勢,我們選擇市面上關注度高的2款句法分析開源工具進行效果對比,評估方式為專家根據各工具依存關係定義人工標註。

經測試,在從搜尋、聊天、網頁文字、語音輸入等資料集合中隨機抽取構成的隨機測試集合上,ddparser效果達到了86.9%,效果優於同類工具,具體效果對比情況如表1所示。

表1ddparser如何安裝使用

ddparser支援pip一鍵安裝,相容windows、linux和macos,呼叫方法如下所示:

白話NLP 依存句法分析

在依存句法分析中,句子中詞與詞之間存在一種二元不等價關係 主從關係。在句子中,如果乙個詞修飾另乙個詞,則稱修飾詞為從屬詞 dependent 被修飾詞成為支配詞 head 兩者之間的語法關係就是依存關係 dependency relation 如句子 小目標 中的形容詞 小 與名次 夢想 之間的關係...

句法分析 依存句法分析

句法分析是自然語言處理中的關鍵技術之一,其基本任務是確定句子的句法結構或者句子中詞彙之間的依存關係。主要包括兩方面的內容,一是確定語言的語法體系,即對語言中合法的句子的語法結構給與形式化的定義 另一方面是句法分析技術,即根據給定的語法體系,自動推導出句子的句法結構,分析句子所包含的句法單位和這些句法...

依存句法分析 Dependency Parsing

句子的依存結構表達了詞與詞之間的依賴關係,這種關係稱依存關係。它是一種二元的非對稱關係 binary asymmetric relation 從依存關係的支配者head指向從屬者dependent。依存句法分析旨在將輸入的句子轉化成依存分析樹 或圖 依存樹中自上而下任意父子結點之間用依存關係連線。在...