暑假要開始上手知識圖譜的專案了,所以就把之前的那些學習積累做乙個簡要的梳理,加油,你的所有積累都會在某一天帶給你意想不到的驚喜~~
接下來進入正題
但是有監督學習中人工標註資料十分侷限,並且還要做實體對齊那麼一旦面對巨大的資料量,就顯得工作量巨大繁雜。
遠端監督就成為大家的寵兒。
遠端監督認為知識圖譜中可獲取三元組r(e1,e2),且e1,e2貢獻在句子s中,則s表達了e1,e2間的關係r,標註為訓練正例。基本假設過強,所以就會有大量雜訊的問題。就是在後面的各種**中頻繁出現的,the wrong label problem,其出現的根本原因是:遠端監督假設乙個實體對只對應一種關係,但實際上實體間可以同時具備多種關係,實體間也可能不存在某種關係,而僅僅因為涉及了某個話題才在句中共現。
理解:(1) 充分利用整個句子的資訊
(2) 解決wrong label problem
(3) 增加attention機制提高了cnn的關係抽取效果
(二)rnn+attention
2016acl :attention-based bidirectional long short-term memory networks for relation classification
輸入一句話,然後經過embedding得到每個單詞的vector,通過bilstm得到詞彙的向量化表示,根據每個詞彙最終的關係貢獻度大小,用詞彙向量和貢獻度進行attentionde得到結果。
輸入:一句包含有t個詞的句子
embedding:將輸入的句子轉化為詞向量
lstm:雙向進行詞彙特徵的抽取(可以得到past future的特徵融合)
attention:找出每個單詞對最終的關係貢獻度的大小
output:結合所有單詞得到的結果
(四) 台灣國立大學 emnlp 2017:deep residual learning forweakly-supervised relation extraction
利用9層的cnn可以顯著提公升遠端監督關係抽取的效能
輸入一句話,含有n個詞彙,包含帶抽取關係的兩個實體
word embedding+posiotion*2-----vector
利用大小為h的滑動視窗提取出詞向量特徵,一維卷積
residual network通過殘差網路避免cnn的梯度消失,提高深度卷積網路的精度,共有m個卷積核得到m個特徵,卷積核大小為h,增加padding使得特徵大小不變—兩層cnn+乙個relu啟用函式
將m個特徵利用最大池化層+全連線層+dropout+softmax進行操作得到結果
理解:這種關係抽取的辦法不需有分段的池化,也沒有使用attention機制,而是可以在深度的cnn上面降低遠端監督的雜訊影響
理解:實體識別和關係分類是相輔相成的,將兩者融合在乙個模型中,讓關係引導實體識別,實體監督關係分類,一起訓練效果更優。與當前的先識別實體對在判斷關係,把實體和關係的識別割裂開來不同,這種方法能很好的識別實體之間的多種關係,或者乙個實體承擔的多種關係。
感覺關係抽取利用深度學習框架是乙個大趨勢啊,但是基於專業領域的資料集抽取的資料好少,不知道有沒有這個方向的同學要一起討論的呀?
關係抽取學習
ok 1 手寫規則 hand written patterns 2 監督學習演算法 supervised machine learning 4 無監督演算法。遠端監督 直接從知識圖譜中,抽取三元組,並從語料集中抽取包含三元組兩個名詞中的任意乙個的句子,對句中的上下文結構學習,並且給句子打分,設定閾值...
實體 關係聯合抽取 入門資料彙總
寫在前面 實體 關係聯合抽取這個方向剛剛入門就要換方向了,很不捨,因此將自己這段時間看的一些入門資料分享出來,供大家學習,希望能起到一些拋磚引玉的作用。如有一絲幫助到您,請點讚支援,謝謝!1 命名實體識別 關係抽取標註工具 ncrf 序列標註模型 deepdive 史丹福大學開源知識抽取工具包 三元...
實體關係抽取的現狀與未來
來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援,中國的桌球誰都打不過 與 中國的足球誰都打不過 在計算機看來語義上並沒有巨大差異,而實際上兩句中的 打不過 意思正好相...