一切具有特定屬性集合的物體都可以稱為實體。
一般包括三大類(實體類、時間類、數字類),七小類(人名、機構名、地名、時間、日期、貨幣和百分比)。
(1)確定實體的邊界,即確定哪些詞屬於實體。
(2)確定實體的類別,即確定實體屬於人名或者機構名等。
(1)各類命名實體沒有嚴格的命名規範
(2)中文命名實體沒有類似英文明確的單詞邊界及標誌
(3)中文分詞和命名實體識別相互影響
(4)網路漢語文字實體組成方式更加複雜
(5)現存標註語料老舊、覆蓋面低
(6)命名實體歧義消歧困難
命名實體識別是資訊抽取、問答系統、語法分析、機器翻譯等應用的重要工具。
主要依靠語言學專家手工構造規則模板,選用特徵,如關鍵字、標點符號、位置詞、指向詞等,基於不同的規則權值進行判斷。
基於規則的方法效能上可解釋性強,對於badcase的解決能力高,但構建規則庫需要語言學專家且耗費時間長。
基於統計機器學習的方法主要包括:隱馬爾科夫模型、最大熵模型、條件隨機場等。
實際上是將命名實體識別轉化為乙個序列標註任務,這部分工具與分詞及詞性標註有一定的重合之處。
1、《統計自然語言處理》 宗成慶
2、基於規則和條件隨機場的中文命名實體識別方法研究 程志剛
中文命名實體識別
命名實體識別是nlp裡一項很基礎的任務,就是從文字中識別出命名性指稱項,為關係抽取等任務做鋪墊。狹義上,是識別出人名 地名和組織機構名這三類命名實體 時間 貨幣名稱等構成規律明顯的實體型別可以用正則等方式識別 當然,在特定領域中,會相應地定義領域內的各種實體型別。1.中文文字不像英文有空格作為詞語的...
ai命名實體識別模型 命名實體識別
crf中有兩類特徵函式,分別是狀態特徵和轉移特徵,狀態特徵用當前節點 某個輸出位置可能的狀態中的某個狀態稱為乙個節點 的狀態分數表示,轉移特徵用上乙個節點到當前節點的轉移分數表示。其損失函式定義如下 crf損失函式的計算,需要用到真實路徑分數 包括狀態分數和轉移分數 其他所有可能的路徑的分數 包括狀...
命名實體識別
簡單的分詞器 如二元分詞器 無法識別oov,所以需要運用一些規定的規則來輔助識別 如 在識別音譯人名時,可以設定規則 一旦發現某詞是人名,而該詞後面跟隨人名詞時,將他們合併 針對不同情況,需要設計相應的標註集 拿人名識別舉例 輸入資料集進行訓練後,會將人名拆分為碎片,模擬人名的錯誤切分.接著,檢查拆...