因為課題組的需要,過去幾個月一直在學習強化學習和魯棒性演算法。再加上忙於課題組中的一些工作,所以過去兩個月基本沒有什麼時間來寫部落格。最近讀了不少強化學習和魯棒性演算法方面的**,也有一些小的收穫,等有時間再通過部落格分享出來。今天分享的是我近期記錄的關係抽取的筆記,希望對想要入門關係抽取這個任務的朋友們有些幫助。
關係抽取從資訊抽取(亦稱為「文字結構化」)中演化而來。關係抽取一般指從非結構化文字中抽取實體以及實體間的關係。關係抽取的下游任務是:問答系統,聊天機械人等。
關係例項抽取:
輸入:文字,給定的關係;
輸出:實體對。
關係分類:
輸入:文字,實體對,關係列表p;
輸出:關係p_i。
實體關係聯合抽取:
輸入:文字;
輸出:三元組的集合
開放關係抽取:此類任務抽取的是關係的文字描述,這類關係通常未定義。開放關係抽取之後要進行規範化。
評測資料集:
人工構建的資料集:ace 2005, semeval-2010 task 8。質量高,規模小。
基於遠端監督構造的資料集:nyt, kbp。 規模大、但噪音多。
遠端監督方法是一種弱監督方法,優點是代價小,規模大;缺點是質量問題。
基於遠端監督的資料集構造過程:
從知識庫中為目標關係識別盡可能多的實體對;
對於每個實體對,利用實體鏈結從大規模文字中抽取提及該實體對的句子集合,並為每個句子標註相應的關係;
包含實體對的句子集合 和 關係型別標籤 構成關係抽取的標註集。相應的句子是訓練資料,關係型別是標籤。
解決遠端監督的噪音問題:
發表於2023年acl的《robust distant supervision relation extraction via deep reinforcement learning》這篇**中的思路是引入強化學習的思想,通過選擇高質量的句子,來不斷地篩選資料集。這種思路是將基於遠端監督的關係分類劃分為兩個子任務:
例項篩選:利用強化學習策略構造乙個例項選擇器,從遠端監督產生的資料中獲取優質樣本。
關係分類:根據選擇的樣本訓練關係分類器。關係分類器同時為例項選擇器提供獎勵。
以及同時期發布的另一篇**《reinforcement learning for relation classification from noisy data》
使用模式來表達關係在文字中提及方式,將模式與語料匹配,來獲取關係例項。這種方法現在用得比較少。
有兩種方法,一種是專家定義模式,俗稱規則法;另一種是自動學習模式。
資料標註->模型構建->模型學習
基於rnn的關係抽取:包括輸入層,雙向迴圈層和池化層,最後借全連線層+softmax層生成關係的概率分布;
基於cnn的關係抽取;
基於注意力機制的關係抽取:為每個句子賦予權重,權重越大表明該句子表達目標關係的程度越高,反之則越可能是雜訊。
入門級演算法
今天我想記錄的是一些關於入門級別的演算法。將乙個字串s對映為乙個整數,使得該整數可以唯一的代表字串s。先假設字串均由大寫字母a z構成,不妨設a z為0 25,即將26個大寫字母對應到了二十六進製制中。按照將二十六進製制轉換為十進位制的思路,即可實現將字串對映為整數的需求。題目 給出n個字串 恰好由...
PKI入門級介紹
隨著電子商務的迅速發展,資訊保安已成為焦點問題之一,尤其是網上支付和網路銀行對資訊保安的要求顯得更為突出。為了能在網際網路上開展安全的電子商務活動,公開金鑰基礎設施 pki,public key infrastructure 逐步在國內外得到廣泛應用。我們是否真的需要 pki pki 究竟有什麼用?...
PKI入門級介紹
隨著電子商務的迅速發展,資訊保安已成為焦點問題之一,尤其是網上支付和網路銀行對資訊保安的要求顯得更為突出。為了能在網際網路上開展安全的電子商務活動,公開金鑰基礎設施 pki,public key infrastructure 逐步在國內外得到廣泛應用。我們是否真的需要 pki pki 究竟有什麼用?...