實體消歧
定義:實體消歧的本質在於乙個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。
簡單實現
首先我們需要準備乙個類似於下面的這種實體庫:
id實體名
實體描述
1001
蘋果美國一家高科技公司,經典的產品有iphone手機
1002
蘋果水果的一種,一般產自於………
…然後當我們拿到text時,比如「今天蘋果發布了新的手機」
我們可以將實體庫中的實體描述,全部轉換為向量,例如:
「美國一家高科技公司,經典的產品有iphone手機」轉換為向量v
1v_1
v1「水果的一種,一般產自於…」轉換為向量v
2v_2
v2然後將「今天蘋果發布了新的手機」中「蘋果」的上下文「今天,發布了新的手機」轉換為向量v
tv_t
vt我們只要將v
tv_t
vt分別與v
1v_1
v1和v
2v_2
v2計算相似度,然後對比sim(v
tv_t
vt,v
1v_1
v1)和sim(v
tv_t
vt,v
2v_2
v2)
相似度高的,我們則將其看作「蘋果」的真實語義。
注意:如果text過長可以取實體的前10個和後10個組成向量,如果標準庫過長也可以如此處理
實體統一
定義:給定倆個實體,判斷是不是同乙個實體?
實際上是乙個0-1的問題,二分類問題
簡單方法
方法一:基於相似度的方法,給定倆個實體(如果實體較長),倆個實體都是字串,計算相似度(使用編輯距離),利用閾值判斷是否是同乙個實體。
方法二:基於規則的方法,stemming的方法提取原型(提前維護好乙個實體描述庫)
公司原型
stemming規則
動作****
刪除分公司
刪除北京
刪除廣州
刪除
實體消歧(鏈結到實體庫)
disambiguation.py usr bin python3 import pymysql import json import requests from similarityen import similarity deffindcandidates entity 開啟資料庫連線 db p...
實體消歧,實體識別,實體融合,知識融合概述
實體消歧問題是當下比較熱點的研究問題,國內外的大多熟研究從兩個角度解決實體歧義造成的影響,分別是通過尋求更高質量的特徵和引入外部資源輔助消解。在特徵選取方面,何正焱 2 利用 dnn 深度神經網路 方法,提出了一種文件和實體的相似度為框架的消歧模型 姜麗麗 3 提出了一種基於帶權圖結構的框架來實現人...
實體消歧簡介
定義 實體消歧的本質在於乙個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。簡單實現 首先我們需要準備乙個類似於下面的這種實體庫 id實體名 實體描述 1001 蘋果美國一家高科技公司,經典的產品有iphone手機 1002 蘋果水果的一種,一般產自於 然後當我們拿到text時...