定義:
實體消歧的本質在於乙個單詞很可能有多個意思,也就是在不同的上下文中所表達的含義可能不太一樣。
簡單實現
首先我們需要準備乙個類似於下面的這種實體庫:
id實體名
實體描述
1001
蘋果美國一家高科技公司,經典的產品有iphone手機
1002
蘋果水果的一種,一般產自於………
…然後當我們拿到text時,比如「今天蘋果發布了新的手機」
我們可以將實體庫中的實體描述,全部轉換為向量,例如:
「美國一家高科技公司,經典的產品有iphone手機」轉換為向量v1
「水果的一種,一般產自於…」轉換為向量v2
然後將「今天蘋果發布了新的手機」中「蘋果」的上下文「今天,發布了新的手機」轉換為向量vt
我們只要將vt分別與v1和v2計算相似度,然後對比sim(vt,v1)和sim(vt,v2)
相似度高的,我們則將其看作「蘋果」的真實語義。
實體消歧(鏈結到實體庫)
disambiguation.py usr bin python3 import pymysql import json import requests from similarityen import similarity deffindcandidates entity 開啟資料庫連線 db p...
實體消歧,實體識別,實體融合,知識融合概述
實體消歧問題是當下比較熱點的研究問題,國內外的大多熟研究從兩個角度解決實體歧義造成的影響,分別是通過尋求更高質量的特徵和引入外部資源輔助消解。在特徵選取方面,何正焱 2 利用 dnn 深度神經網路 方法,提出了一種文件和實體的相似度為框架的消歧模型 姜麗麗 3 提出了一種基於帶權圖結構的框架來實現人...
詞義消歧 SenseBERT解析
以色列研究公司 ai21 labs 2019年8月發布 sensebert driving some sense into bert 提出一種能夠顯著提公升詞彙消歧能力的新模型,該模型在複雜的 word in context wic 語言任務中取得了當前最優結果。這篇 的重要創新是,senseber...