摘要
句法敏感的實體表示用於神經網路關係抽取。關係抽取任務大規模應用的乙個主要瓶頸就是語料的獲取。近年來基於神經網路的關係抽取模型把句子表示到乙個低維空間。這篇**的創新在於把句法資訊加入到實體的表示模型裡。首先,基於tree-gru,把實體上下文的依存樹放入句子級別的表示。其次,利用句子間和句子內部的注意力,來獲得含有目標實體的句子集合的表示。
研究背景和動機
關係抽取任務大規模應用的乙個主要瓶頸就是語料的獲取。遠端監督模型通過將知識庫應用於非結構化文字對齊來自動構建大規模訓練資料,從而減輕對人工構建資料的依賴程度,並使得模型跨領域適應能力得到增強。然而,在利用遠端監督構建語料的過程中,僅僅利用實體名稱進行對齊,而不同實體在不同關係下應該具有更加豐富的多樣的語義表示,從而導致錯誤標註等問題。因此,一套更加豐富的實體表示顯得尤為重要。
另一方,基於語法資訊的方法通常作用於兩個實體之間的關係上,而語法資訊是可以更加豐富實體的表示的。因此,本文基於句法上下文的實體表示來豐富實體在不同關係模式下的語義,並結合神經網路模型處理關係抽取任務。
相關工作介紹
我們把相關的工作大致分成早期基於遠端監督的方法和近年來基於神經網路模型兩類。
為了解決關係抽取任務嚴重依賴於標註語料的問題,mintz et al.(2009)率先提出了基於遠端監督的方法構建標註語料。然而,這樣構建的自動標註語料含有大量的雜訊。為了緩解語料中雜訊帶來的影響,riedel et al.(2010)將關係抽取看成是乙個多例項單類別的問題。進一步地,hoffmannet al.(2011)和surdeanu et al.(2012)採取了多例項多類別的策略。同時,採用最短依存路徑作為關係的乙個語法特徵。上述方法典型的缺陷在於模型的效能依賴於特徵模板的設計。
近年來,神經網路被廣泛地應用於自然語言處理任務上。在關係抽取領域,socher et al.(2012)採用迴圈神經網路來處理關係抽取。zeng et al.(2014)則構建了端到端的卷積神經網路,進一步地,zeng etal.(2015)假設多例項中至少有乙個例項正確地表示了相應的關係。相比於假設有乙個例項表示一對實體的關係,linet al.(2016)通過注意力機制挑選正面的例項更充分地使用了標註語料含有的資訊。
以上這些基於神經網路的方法大多數都使用詞層次的表示來生成句子的向量表示。另一方面,基於語法資訊的表示也受到了眾多研究者的青睞,其中最主要的即最短依存路徑(miwa and bansal(2016)和cai et al.(2016))。
主要方法
首先,基於依存句法樹,利用基於樹結構的迴圈神經網路(tree-gru)模型生成實體在句子級別的表示。如上圖所示,有別於僅僅使用實體本身,我們能夠更好地表達出長距離的資訊。具體的實體語義表示如下圖所示。我們使用tree-gru來獲得實體的語義表示。
其次,利用基於子節點的注意力機制(attce,上圖)和基於句子級別的實體表示注意力機制(attee,下圖)來減輕句法錯誤和錯誤標註的負面影響。
實驗結果
本文在nyt語料上進行了實驗。最終結果如上圖所示。其中,see-cat和see-trains分別是本文使用的兩種結合三種向量表示(句子的向量表示,兩個實體的向量表示)的策略。從圖中可以看出,本文提出的模型在相同資料集上取得了比現有遠端監督關係抽取模型更好的效能。
總結
本文的實驗結果表明,更豐富的命名實體語義表示能夠有效地幫助到最終的關係抽取任務。
神經網路的資料表示
深度學習中的資料儲存在多維numpy陣列中,也叫張量 tensor 一般來說,當前所有機器學習系統都使用張量作為基本的資料結構。張量對這個領域非常重要,重要到google 的tensorflow 都以它來命名。那麼什麼是張量?張量這一概念的核心在於,它是乙個資料容器。它包含的資料幾乎總是數值資料,因...
神經網路中的資料表示
當前所有機器學習系統都使用張量作為基本資料結構。張量對這個領域非常重要,重要到 google 的 tensorflow 都是以它來命名的。那麼什麼是張量?標量 英語 scalar 又稱純量,是只有大小 沒有方向 可用實數表示的乙個量。實際上標量就是實數,標量 這個稱法只是為了區別於向量。標量可以是負...
神經網路的資料表示 張量 Tensor
張量 tensor 是乙個資料容器,它所包含的一般是數值資料。下面是張量中的一些名詞 import numpy as np x np.array 12 x array 12 x.ndim 0 x np.array 12 3,6 14,7 x array 12 3,6 14,7 x.ndim 1這個向...