現有的資訊提取系統如命名實體識別系統大多只能提取得到輸入文字的序列依賴資訊(sequential context)和區域性依賴資訊(local dependency context),但非區域性(non-local)依賴資訊與非序列(non-sequential)資訊對於資訊提取同樣重要,**針對這個問題提出graphie(graph information extraction)框架,針對不同的資訊提取任務(命名實體識別、社交網路資訊提取、視覺資訊提取)為輸入資料設計特定的圖結構,並使用圖卷積網路gcn來提取圖結構中的資訊作為特徵增強,本篇文章僅記錄命名實體識別任務相關的內容。
資訊提取任務被定義為序列標記任務,**額外假設輸入的資訊序列中還隱含有內在的圖結構可以輔助提取文字單元(如word、sentence)之間的non-local、non-sequential依賴資訊。
令輸入資料為乙個句子集合
sentence-level graph:每個圖節點與輸入文字中的句子一一對應,即,圖邊用來對句子之間的依賴關係進行編碼。
word-level graph:每個圖節點與輸入文字中的單詞一一對應,圖邊用來對單詞之間的依賴關係如共指關係進行建模。
graphie分為三個模組:encoder、graph module和decoder。其中encoder使用rnn提取文字單元之間的local、sequential依賴關係;graph module用於提取輸入圖結構之間所含有的non-local與non-sequential資訊,圖結構的具體構建方式將在實驗部分介紹;decoder利用前兩個模組提取得到的特徵來進行序列標註。下面以sentence-level graph為例詳細介紹這三部分內容。
圖1 sentence-level graph
如圖1所示,對於輸入的句子:
其中 表示rnn輸出1到k時間步的的隱向量,
表示rnn在1到k時間步的輸入,
代表初始化為零向量的rnn初始隱狀態,
代表encoder的引數。**中具體使用了bi-lstm來完成這部分工作,並使用各時間步輸出隱狀態的平均值作為句子的特徵輸出:
。令輸入gcn的句子的節點特徵為,gcn將作用於所有句子節點特徵,通過在相鄰節點之間進行資訊傳播來學習圖結構隱含的依賴關係。第
其中 是可學習的對映引數,而第二部分則用於提取當前節點的鄰域節點集所提供的特徵:
其中 是節點
的度,用來對
進行標準化,來確保度不同的節點得到的
有相同的數值範圍,具體的對於有向圖來說,
和 包含了不同的資訊,因此對於這兩種邊,文章採取了類似於relational gcn的方式,對不同型別的邊,採取不同的引數
。最終,在
和 的基礎上計算得到層gcn的輸出:
由於每一層gcn僅能提取得到一階的鄰域特徵,在實際應用中可以通過堆疊多層gcn來提取得到範圍更廣的長距離依賴。
文章在decoder部分使用了bilstm-crf,在對句子的標籤序列進行**時,首先forward lstm和backward lstm都以gcn的輸出
作為隱狀態初始化,並計算得到中間結果
:**也嘗試了以
和 直接拼接並使用零向量初始化隱狀態的方式來引入gcn提取的特徵,但是實際效果沒有上述將
作為初始隱狀態的方式好,最後crf在
的基礎上進行序列標籤**。
圖2 word-level graph
如圖2所示當使用詞語作為圖節點構建圖時,gcn直接對encoder輸出的詞語節點特徵進行特徵提取,decoder在gcn的輸出上進行如下運算:
其中 代表gcn對詞語
的編碼結果。
**針對命名實體識別任務使用了word-level graph,所構建的graph中包括兩種型別的邊:
local edges:在相鄰word之間,構建前向連線和後向連線兩種有向邊;
non-local edges:除停用詞之外的所有詞中,如果任倆個詞有共指關係則為其新增邊,通過這種方式旨在利用共指關係來消除句子級別ner可能產生的歧義現象。
**以bilstm-crf作為baseline seqie。在conll2003和chemdner資料集上的結果對比為:
圖3 results on conll03 and chemdner
**對比的多是一些基於人工構建特徵的方法,實驗內容不是很豐富,近年來使用gnn來做ner的工作也不少,不過區別主要在於圖結構的構建方式,顯然人工構建圖的方式能達到的優化效果有限,如何自動化地學習輸入資料潛在的圖結構是這一領域的突破口。
a graph-based framework for information extractionexport.arxiv.org
ai命名實體識別模型 命名實體識別
crf中有兩類特徵函式,分別是狀態特徵和轉移特徵,狀態特徵用當前節點 某個輸出位置可能的狀態中的某個狀態稱為乙個節點 的狀態分數表示,轉移特徵用上乙個節點到當前節點的轉移分數表示。其損失函式定義如下 crf損失函式的計算,需要用到真實路徑分數 包括狀態分數和轉移分數 其他所有可能的路徑的分數 包括狀...
命名實體識別
簡單的分詞器 如二元分詞器 無法識別oov,所以需要運用一些規定的規則來輔助識別 如 在識別音譯人名時,可以設定規則 一旦發現某詞是人名,而該詞後面跟隨人名詞時,將他們合併 針對不同情況,需要設計相應的標註集 拿人名識別舉例 輸入資料集進行訓練後,會將人名拆分為碎片,模擬人名的錯誤切分.接著,檢查拆...
命名實體 中文命名實體識別簡介
一切具有特定屬性集合的物體都可以稱為實體。一般包括三大類 實體類 時間類 數字類 七小類 人名 機構名 地名 時間 日期 貨幣和百分比 1 確定實體的邊界,即確定哪些詞屬於實體。2 確定實體的類別,即確定實體屬於人名或者機構名等。1 各類命名實體沒有嚴格的命名規範 2 中文命名實體沒有類似英文明確的...