**: (ok)
1、手寫規則(hand-written patterns);
2、監督學習演算法(supervised machine learning);
4、無監督演算法。
遠端監督:
直接從知識圖譜中,抽取三元組,並從語料集中抽取包含三元組兩個名詞中的任意乙個的句子,對句中的上下文結構學習,並且給句子打分,設定閾值來判斷是否本句屬於當前關係類別。
遠端監督演算法有乙個非常重要的假設:對於乙個已有的知識圖譜(**用的freebase)中的乙個三元組(由一對實體和乙個關係構成),假設外部文件庫(**用的wikipedia)中任何包含這對實體的句子,在一定程度上都反映了這種關係。
基於這個假設,遠端監督演算法可以基於乙個標註好的小型知識圖譜,給外部文件庫中的句子標註關係標籤,相當於做了樣本的自動標註,因此是一種半監督的演算法。
具體來說,在訓練階段,用命名實體識別工具,把訓練語料庫中句子的實體識別出來。如果多個句子包含了兩個特定實體,而且這兩個實體是freebase中的實體對(對應有一種關係),那麼基於遠端監督的假設,認為這些句子都表達了這種關係。於是從這幾個句子中提取文字特徵,拼接成乙個向量,作為這種關係的乙個樣本的特徵向量,用於訓練分類器。
從bag-of-words中抽取文字特徵,作為關係的特徵向量表示。
從多個句子中抽出特徵進行拼接,作為某個樣本(實體對)的特徵向量,有兩個好處:
一是單獨的某個句子可能僅僅包含了這個實體對,並沒有表達freebase中的關係,那麼綜合多個句子的資訊,就可以消除噪音資料的影響。
二是可以從海量無標籤的資料中獲取更豐富的資訊,提高分類器的準確率。
但是就算乙個句子中同時出現了這兩個實體對,也可能表達的不是本關係的意思,那麼就會產生偏差啊,可能是越來越大的偏差。
從句子中抽取如上三種特徵。
遠端監督基於乙個非常強的假設,就是只要freebase的關係對中的實體出現在了句子中,就假定實體關係為當前關係。
2.資料構造過程依賴於 ner 等 nlp 工具,中間過程出錯會造成錯誤傳播問題。針對這些問題,目前主要有四類方法:(1)在構造資料集過程中引入先驗知識作為限制;(2)利用指稱與指稱間關係用圖模型對資料樣例打分,濾除置信度較低的句子;(3)利用多示例學習方法對測試包打標籤;(4)採用 attention 機制對不同置信度的句子賦予不同的權值。
freebase 是乙個由元資料組成的大型合作知識庫。
屬性值型別可以是基本型別,比如:整型、文字等;也可以是另乙個type,比如:所在球隊、父母等,這種情況叫做cvt,compound value type 組合值型別,比如:所在球隊就是乙個cvt,它有自身結構化的屬性,不僅僅只是一種簡單的值。
通過型別及其配置的屬性,可結構化乙個topic,如果topic屬於多個type,則其結構為這些type屬性的集合。如果屬性是基本型別則儲存在該topic本身;若是cvt則作為另乙個topic儲存,通過邊進行關聯。
//聽起來就像乙個個結構化的資料然後通過屬性關聯,這樣就形成了圖。
無需預先定義關係型別,而是直接從開放文字中抽取(s1,p,s2),s為實體,p為動詞。(個人理解)
《開放式文字資訊抽取 》
開放式實體關係抽取的目標就是突破封閉的關係型別限定以及訓練語料的約束,從海量的網路文字中抽取實體關係三元組(arg1, pred, arg2),這裡 arg1 表示實體,arg2 表示實體關係值,通常也為實體, pred 表示關係名稱,通常為動詞、名詞或者名詞短語。
infobox也是結構化資料,
}需要看一下那篇引用的文章。|title =可選頂欄的用例
|header1 = }}}}}} |可選頂欄}}
|label2 =專案一
|data2 = }}
|label3 =專案二
|data3 = }}
|label4 =專案三
|data4 = }}
}}
實體關係抽取學習記錄
暑假要開始上手知識圖譜的專案了,所以就把之前的那些學習積累做乙個簡要的梳理,加油,你的所有積累都會在某一天帶給你意想不到的驚喜 接下來進入正題 但是有監督學習中人工標註資料十分侷限,並且還要做實體對齊那麼一旦面對巨大的資料量,就顯得工作量巨大繁雜。遠端監督就成為大家的寵兒。遠端監督認為知識圖譜中可獲...
讀書筆記 關係抽取和事件抽取
讀完趙軍主編的 知識圖譜 第六章和第七章,對關係抽取和事件抽取簡單做一下筆記。關係抽取 定義 自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取 兩個實體 和多元關係抽取 三個及以上實體 通過關注兩個實體間的語義關係,可以得到 arg1,relation,arg2 三元組,其...
關係抽取入門級概覽
因為課題組的需要,過去幾個月一直在學習強化學習和魯棒性演算法。再加上忙於課題組中的一些工作,所以過去兩個月基本沒有什麼時間來寫部落格。最近讀了不少強化學習和魯棒性演算法方面的 也有一些小的收穫,等有時間再通過部落格分享出來。今天分享的是我近期記錄的關係抽取的筆記,希望對想要入門關係抽取這個任務的朋友...