命名實體識別 NER

2022-05-18 19:02:31 字數 2639 閱讀 1017

一、任務

named entity recognition,簡稱ner。主要用於提取時間、地點、人物、組織機構名。

二、應用

知識圖譜、情感分析、機器翻譯、對話問答系統都有應用。比如,需要利用命名實體識別技術自動識別使用者的查詢,然後將查詢中的實體鏈結到知識圖譜對應的結點上,其識別的準確率將會直接影響到後續的一系列工作。

三、流程圖

四、標註集

採用bmewo標註體系進行標註

bme分別代表實體的首部、中部、尾部。w代表單獨是乙個實體,o代表非實體。

五、ner的難點

1)不同場景不同領域下差異較大,比如新聞領域訓練出來的模型,應用到社交領域,效果就非常差勁。但是當前標註的資料集主要集中於新聞領域。

2)目前ner的標註語料較少,標註成本較大,如何從現有較少的語料中學習到更好的模型,或者能從大量未標記語料進行學習,給ner帶來了新的挑戰。

3)隨著時間的推移,出現大量未登入詞。

六、用crf進行識別效果不好怎麼辦?

可以通過構建更多的特徵,比如詞性、命名實體的指示代詞等,也就是訓練樣本集中新增更多的列,將詞與詞的前後關係更明白的告訴特徵,模型就學習的更好,說白了就是多做一些特徵工程,把隱藏的關係都展開。有了更多的特徵列,特徵模板也要相應更改一下,可以參照下面的第二個參考文獻。

例如:增加特徵後,訓練語料變成如下形式(漢字、詞性、分詞邊界、地名指示代詞、組織名指示代詞、人名指示代詞,標註tag):

相應模板如下:

#

unigram

u00:%x[-2,0]

u01:%x[-1,0]

u02:%x[0,0]

u03:%x[1,0]

u04:%x[2,0]

u05:%x[-2,1]

u06:%x[-1,1]

u07:%x[0,1]

u08:%x[1,1]

u09:%x[2,1]

u10:%x[0,0]/%x[0,1]

u11:%x[0,0]/%x[1,0]

u12:%x[0,0]/%x[-1,0]

u13:%x[-1,0]/%x[0,1]

u14:%x[0,0]/%x[1,1]

u15:%x[-1,0]/%x[-1,1]

u16:%x[-1,0]/%x[-2,0]

u17:%x[-2,0]/%x[-2,1]

u18:%x[1,0]/%x[2,0]

u19:%x[-1,1]/%x[1,0]

u20:%x[0,1]/%x[1,0]

u21:%x[-2,1]/%x[-1,1]

u22:%x[0,1]/%x[-2,1]

u23:%x[-1,1]/%x[0,1]

u24:%x[-1,1]/%x[1,1]

u25:%x[0,1]/%x[1,1]

u26:%x[0,1]/%x[2,1]

u27:%x[1,1]/%x[2,1]

u28:%x[-1,2]

u29:%x[-2,2]

u30:%x[-1,2]/%x[-2,2]

u31:%x[0,1]/%x[-1,2]

u32:%x[0,1]/%x[-2,2]

u33:%x[0,1]/%x[1,2]

u34:%x[0,0]/%x[-1,2]

u35:%x[0,0]/%x[-2,2]

u36:%x[0,0]/%x[1,2]

u37:%x[0,1]/%x[-1,2]/%x[-2,2]

u38:%x[-1,2]/%x[0,1]/%x[1,1]

u39:%x[-1,2]/%x[-1,1]/%x[0,1]

u40:%x[-1,2]/%x[0,1]/%x[0,0]

u41:%x[-2,2]/%x[-1,2]/%x[0,1]

u42:%x[-2,3]/%x[-1,3]/%x[1,3]%x[2,3]

u43:%x[-2,4]/%x[-1,4]/%x[1,4]%x[2,4]

u44:%x[-2,5]/%x[-1,5]/%x[1,5]%x[2,5]

#bigram

b

參考文獻

參考文獻:該文是上述參考文獻的第二篇,裡面詳細介紹了通過構建命名實體的指示代詞來提高模型的學習效果)

參考文獻:該文是上述參考文獻的第三篇,裡面又新加了常用詞特徵,效果不錯)

參考文獻: (bilstm+crf)

參考文獻: (中文命名實體識別全總結,包括bilstm+crf)

命名實體識別 NER

什麼是命名實體識別 命名實體識別 named entity recognition,ner 就是從一段自然語言文字中找出相關實體,並標註出其位置以及型別。是資訊提取,問答系統,句法分析,機器翻譯等應用領域的重要基礎工具,在自然語言處理技術走向實用化的過程中占有重要地位.包含行業,領域專有名詞,如人名...

電子病歷命名實體識別NER

醫生給的標籤格式 將命名實體和標籤當成jieba分詞中的分詞和詞性,更新到jieba詞典中,然後對病歷文件進行分詞,按照bio標註每個字,每句話結束用空格分開。按照1 2 12的比例將病歷資料儲存到dev test train三個檔案中 1 將資料轉換成bioes標註,增加了es,因為標註資訊變多了...

中文命名實體識別NER詳解

中文命名實體識別是在自然語言處理領域有著具足輕重的地位,因為在很多應用中,我們一定要提取出我們話術中的實體,所以說命名實體識別是非常重要的。一般來說,現在網上有很多ner的開源庫,我們通過呼叫api就可以進行人名 地名 時間 機構名等實體的識別,效果也非常不錯。但是這僅僅是限於某一些領域的命名實體識...