在nlp領域中,關係抽取任務,指的是為了構建知識圖譜,從結構化(表1)、半結構化(表2)非結構化資料(表3)獲取形式為(事物1、關係、事物2)的三元組的活動。一些情況下,我們會想辦法把關係抽取抽象成若干三元組的抽取,而不會做 四元組 、五元組的抽取。
表1 若干文學形象的結構化資訊
結構化程度與實體關係抽取方法
在確定了要抽取的實體型別、關係型別之後,就可以設計模型實現自動抽取了。隨著資料的結構化程度變化,三元組抽取的方法也有所變化——總的來說,資料結構化程度越低,需要使用的方法越複雜。結構化資料的字段含義、字段數量、資料內容都是明確的,只需要設計簡單的對映規則,即可變換為三元組,並與知識圖譜中的概念、實體對應或鏈結(entity linking)起來。
表2 關於若干事物的半結構化資訊
半結構化程度與實體關係抽取方法
半結構化資料的情況稍微複雜一些,其欄位、內容沒有結構化資料那麼規整,需要基於一定的資料探查來發掘對業務有意義的部分、使之盡量結構化。另外,半結構化資料中一些欄位的值可能是文字,我們就需要使用非結構化資料的三元組抽取方法來處理。
表3 若干非結構化資料
面向非結構化資料的三元組抽取思路
就像時間抽取等資訊抽取任務一樣,三元組抽取實際上是兩個任務:
(1) 實體識別
(2) 實體分類
按照兩個子任務的配合方式,三元組的抽取模型的結構也可以分為2類:
(1) 流水線模式,也叫pipeline式模型。這種模型會使用乙個序列標註模型識別文字中的實體;然後使用乙個分類器對面前識別出來的實體進行兩兩之間關係的分類。還是那句話,流水線模型存在誤差傳遞,酌情使用。
(2) 聯合模型。這種模型一般將實體識別模組和實體分類模組整合到乙個模型內,讓二者共享底層特徵、聯合二者的損失值進行訓練。相對流水線式模型,聯合模型中的實體識別模組傳遞到實體關係分類模組的誤差較小;如果結構設計得當,計算速度也會快很多。
實體關係抽取學習記錄
暑假要開始上手知識圖譜的專案了,所以就把之前的那些學習積累做乙個簡要的梳理,加油,你的所有積累都會在某一天帶給你意想不到的驚喜 接下來進入正題 但是有監督學習中人工標註資料十分侷限,並且還要做實體對齊那麼一旦面對巨大的資料量,就顯得工作量巨大繁雜。遠端監督就成為大家的寵兒。遠端監督認為知識圖譜中可獲...
實體 關係聯合抽取 入門資料彙總
寫在前面 實體 關係聯合抽取這個方向剛剛入門就要換方向了,很不捨,因此將自己這段時間看的一些入門資料分享出來,供大家學習,希望能起到一些拋磚引玉的作用。如有一絲幫助到您,請點讚支援,謝謝!1 命名實體識別 關係抽取標註工具 ncrf 序列標註模型 deepdive 史丹福大學開源知識抽取工具包 三元...
實體關係抽取的現狀與未來
來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援,中國的桌球誰都打不過 與 中國的足球誰都打不過 在計算機看來語義上並沒有巨大差異,而實際上兩句中的 打不過 意思正好相...