序列標註 5 命名實體識別技術綜述

2021-10-06 04:29:00 字數 3508 閱讀 9804

本文是對 《命名實體識別技術綜述》的摘錄和筆記。

**鏈結

命名實體識別(ner)的目的是識別文字中的命名實體(邊界)並將其歸納到相應的實體型別中。一般的實體型別包括人名、地名、組織機構名、日期等。

ner的主要難點在於領域命名實體識別的侷限性(如軍事領域命名實體識別等)、命名實體表述的多樣性和歧義性、命名實體的複雜性和開放性。

ner的研究程序從最初的規則字典方法到統計機器學習方法,再到目前的深度學習方法,效能不斷提高。

ner的意義:建立乙個可以支撐自然語言理解和處理的大規模知識庫對於實現人工智慧的目標非常重要。ner可以檢測出文字中的新實體和相應型別並加入到現有知識庫中,為推動人工智慧發展提供可靠的知識和技術基礎。ner在多種nlp任務中都有廣泛的應用,例如知識圖譜構建、機器翻譯、知識庫構建、自動問答、網路搜尋等。

一些學者採用遷移學習的方法,橋接富 足資源和匱乏資源,命名實體識別的遷移學習方法可以分為兩種:基於並行語料庫的遷移學習和基於共享 表示的遷移學習。利用並行語料庫在高資源和低資源語言之間對映資訊,chen和feng等[1-2]提出同時識別 和鏈結雙語命名實體。ni和mayhew等[3]建立了乙個跨語言的命名實體識別系統,該系統通過將帶注釋的富 足資源資料轉換到匱乏資源上,很好地解決了匱乏資源問題。zhou等[4]採用雙對抗網路探索高資源和低資源之間有效的特徵融合,將對抗判別器和對抗訓練整合在乙個統一的框架中進行,實現了端到端的訓練。

還有學者採用正樣本-未標註樣本學習方法(positive-unlabeled, pu),僅使用未標註資料和部分不完善的 命名實體字典來實現命名實體識別任務。yang等學者[5]採用adasampling方法,它最初將所有未標記的例項 視為負例項,不斷地迭代訓練模型,最終將所有未標註的例項劃分到相應的正負例項集中。peng等學者[6] 實現了pu學習方法在命名實體識別中的應用,僅使用未標記的資料集和不完備的命名實體字典來執行命名 實體識別任務,該方法無偏且一致地估算任務損失,並大大減少對字典大小的要求。

針對資源匱乏領域標註資料的缺乏問題,基於遷移學習、對抗學習、遠監督學習等方法被充分利用,解決資源匱乏領域的命名實體識別難題,降低人工標註工作量,也是最近研究的重點。

大多數命名實體識別研究都集中在有限的實體型別上,ling和daniel[7]定義了乙個細粒度的112個標籤集,如下圖所示,將標籤問題表述為多型別多標籤分類

學者們在該領域已經進行了許多研究,通常學習每個實體的分布式表示,並應用多標籤分類模型進行型別推斷。neelakantan和chang [8]利用各種資訊構造實體的特徵表示,如實體的文字描述、屬性和型別, 之後,學習**函式來推斷實體是否為某型別的例項。yaghoobzadeh等[9]重點關注實體的名稱和文字中的實體指代項,並為實體和型別對設計了兩個評分模型。這些工作淡化了實體之間的內部關係,並單獨為每個實體分配型別。jin等[10]以實體之間的內部關係為結構資訊,構造實體圖,進一步提出了一種網路嵌入框架學習實體之間的相關性。最近的研究表明以卷積方式同時包含節點特徵和圖結構資訊,將實體特徵豐富到圖結構將獲益頗多[11-12]。此外,還有學者考慮到由於大多數知識庫都不完整,缺乏實體型別資訊,例如 在dbpedia資料庫中36.53%的實體沒有型別資訊。因此對於每個未標記的實體,jin等[13]充分利用其文字描 述、型別和屬性來**缺失的型別,將推斷實體的細粒度型別問題轉化成基於圖的半監督分類問題,提出了使用分層多圖卷積網路構造3種連通性矩陣,以捕獲實體之間不同型別的語義相關性。

此外,實現知識庫中命名實體的細粒度劃分也是完善知識庫的重要任務之一。細粒度命名實體識別現 有方法大多是通過利用實體的固有特徵(文字描述、屬性和型別)或在文字中實體指代項來進行型別推斷, 最近有學者研究將知識庫中的實體轉換為實體圖,並應用到基於圖神經網路的演算法模型中。

巢狀實體識別充分利用內部和外部實體的巢狀資訊,從底層文字中捕獲更細粒度的語義,實現更深層次的文字理解,研究意義重大。

另一些學者使用深度學習研究文字語義。francis-landau等[26]使用卷積神經網路學習文字的表示形式, 然後獲得候選實體向量和文字向量的余弦相似度得分。ganea和hofmann[27]專注於文件級別的歧義消除,使用神經網路和注意力機制來深度表示實體指代項和候選實體之間的關係。mueller和durrett[28]將句子左右分開,然後分別使用門控迴圈單元和注意力機制,獲得關於實體指代項和候選實體的分數。ouyang等[29]提出一種基於深度序列匹配網路的實體鏈結演算法, 綜合考慮實體之間的內容相似度和結構相似性,從而幫助機器理解底層資料。目前,在實體鏈結中使用深度學習方法是乙個熱門的研究課題。

conll 2002資料集[31], 標註了4種實體型別: per,loc,org misc。

ace 2004 多語種訓練語料庫[32], 包含用於 2004 年自動內容提取(ace)技術評估的全套英語、阿拉伯語和中文培訓資料。 語言集由為實體和關係標註的各種型別的資料組成。

ace 2005 多語種訓練語料庫[32], 包含完整的英語、阿拉伯語和漢語訓練資料, 可以用來做實體、關係、事件抽取等任務。

ontonotes 5.0 資料集[33],包含英語、漢語、阿拉伯語, 實體被標註為 person,organization,location 等 18 個型別。

6)muc 7 資料集[34]

twitter資料集是由zhang等[35]提供, 不僅包含文字還包含資訊。

大部分資料集的發布官方都直接給出了訓練集、驗證集和測試集的劃分。同時不同的資料集可能採用不同的標註方法,最常見的標註方法有 iob,bioes,markup,io,bmewo等,下面詳細介紹幾種常用的標註方法:

1) iob 標註法,是 conll 2003 採用的標註法, i 表示內部,o 表示外部, b 表示開始。如若語料(序列)中某個詞標註 b/i-***,b/i 表示這個詞屬於命名實體的開始或內部(中間或結尾),即該詞是命名實體的一部分,*** 表示命名實體的型別(如person、location等)。當詞標註為 o 則表示屬於命名實體的外部,即它不是乙個命名實體。

2)bioes 標註法,是在 iob 方法上的擴充套件,具有更完備的標註規則。其中 b 表示這個詞處於乙個命名實體的開始,i 表示內部(中間),o 表示外部,e 表示這個詞處於乙個實體的結束, s 表示這個詞是單獨形成乙個命名實體。bioes 是目前最通用的命名實體標註方法。

3)markup 標註法,是 ontonotes 資料集使用的標註方法,方式比較簡單。例如:enamex type=」org」>londonenamex> is an international metropolis,它直接用標籤把命名實體標註出來,然後通過 type 字段設定相應的型別。

召回率: 真正為正類的樣本中,有多少被**成正類,即:

f1 值:是精確率和召回率的調和平均指標,是平衡準確率和召回率影響的綜合指標。

ai命名實體識別模型 命名實體識別

crf中有兩類特徵函式,分別是狀態特徵和轉移特徵,狀態特徵用當前節點 某個輸出位置可能的狀態中的某個狀態稱為乙個節點 的狀態分數表示,轉移特徵用上乙個節點到當前節點的轉移分數表示。其損失函式定義如下 crf損失函式的計算,需要用到真實路徑分數 包括狀態分數和轉移分數 其他所有可能的路徑的分數 包括狀...

命名實體識別

簡單的分詞器 如二元分詞器 無法識別oov,所以需要運用一些規定的規則來輔助識別 如 在識別音譯人名時,可以設定規則 一旦發現某詞是人名,而該詞後面跟隨人名詞時,將他們合併 針對不同情況,需要設計相應的標註集 拿人名識別舉例 輸入資料集進行訓練後,會將人名拆分為碎片,模擬人名的錯誤切分.接著,檢查拆...

命名實體 中文命名實體識別簡介

一切具有特定屬性集合的物體都可以稱為實體。一般包括三大類 實體類 時間類 數字類 七小類 人名 機構名 地名 時間 日期 貨幣和百分比 1 確定實體的邊界,即確定哪些詞屬於實體。2 確定實體的類別,即確定實體屬於人名或者機構名等。1 各類命名實體沒有嚴格的命名規範 2 中文命名實體沒有類似英文明確的...