來到 2019 年的今天,深度學習的諸多侷限性也慢慢得到廣泛認知。對於自然語言處理而言,要做到精細深度的語義理解,單純依靠資料標註與算力投入無法解決本質問題。如果沒有先驗知識的支援,「中國的桌球誰都打不過」與「中國的足球誰都打不過」,在計算機看來語義上並沒有巨大差異,而實際上兩句中的「打不過」意思正好相反。因此,融入知識來進行知識指導的自然語言處理,是通向精細而深度的語言理解的必由之路。然而,這些知識又從**來呢?這就涉及到人工智慧的乙個關鍵研究問題——知識獲取。
實體關係抽取是乙個經典任務,在過去的 20 多年裡都有持續研究開展,特徵工程、核方法、圖模型曾被廣泛應用其中,取得了一些階段性的成果。隨著深度學習時代來臨,神經網路模型則為實體關係抽取帶來了新的突破。
語法分析在詞法分析輸出單詞流基礎上,根據語言的語法規則注意分析這些單詞流怎麼組成句子,並說明句子是怎樣組成程式,並能進行語法檢查,而語義分析是根據語法結構分析其含義。
能理解成語法分析是從詞中找出句子,而語義分析是在句子的基礎上進行理解,並斷句。
語法分析的任務是判斷源程式在結構上是否正確,是上下文無關的;
語義分析的任務是判斷結構正確的源程式所表達的意義(這樣說可能不太準確)是否正確,是上下文有關的。
一種語言是合法句子的集合。什麼樣的句子是合法的呢?可以從兩方面來判斷:語法和語。語法是和文法結構有關,然而語義是和按照這個結構所組合的單詞符號的意義有關。合理的語法結構並不表明語義是合法的。例如我們常說:我上大學,這個句子是符合語法規則的,也符合語義規則。但是大學上我,雖然符合語法規則,但沒有什麼意義,所以說是不符合語義的。
參考這裡
語法 包括 詞法 和 句法。
semeval-2010 task-8的任務設定為,對預先定義好的關係類別標註大量的訓練和測試樣例,樣例都是相對簡單的短句,而且每種關係的樣例分布也比較均勻。然而,實際應用中往往面臨很多挑戰:
我們認為,這四個方面構成了實體關係抽取需要進一步探索的主要方向。接下來,我們分別介紹這四個方面的發展現狀和挑戰,以及我們的一些思考和努力。
神經網路關係抽取需要大量的訓練資料,但是人工標註這些訓練資料非常費時昂貴。為了自動獲取更多的訓練資料訓練模型,工作 [16] 提出了遠端監督(distant supervision)的思想,將純文字與現有知識圖譜進行對齊,能夠自動標註大規模訓練資料。
雖然遠端監督思想非常簡單也存在很多問題,不過它為更多收集訓練資料開啟了新的紀元。受到這個思路的啟發,很多學者積極考慮如何盡可能排除遠端監督資料中的噪音標註的干擾。從2023年開始,基於遠端監督與降噪機制的神經關係抽取模型得到了長足的發展,工作 [17] 引入了多例項學習方法,利用包含同一實體對的所有例項來共同**實體間關係。我們課題組林衍凱等人工作 [19] 提出句子級別注意力機制,對不同的例項賦予不同的權重,用以降低噪音例項造成的影響。工作 [20] 引入對抗訓練來提公升模型對噪音資料的抵抗能力。工作 [21] 則構建了一套強化學習機制來篩除噪音資料,並利用剩餘的資料來訓練模型。
總結來說,已有對遠端監督的降噪方法可以兼顧了關係抽取的魯棒性與有效性,也具有較強的可操作性和實用性。不過,使用已有知識圖譜對齊文本來獲取資料訓練關係抽取模型,再利用該模型來抽取知識加入知識圖譜,本身就有一種雞生蛋與蛋生雞的味道。不完善的知識圖譜對齊所得到的文字訓練資料也將是不完善的,對那些長尾知識而言,仍難以通過這種遠端監督機制來得到訓練例項。如何提出更有效的機制來高效獲取高質量、高覆蓋、高平衡的訓練資料,仍然是乙個值得深入思考的問題。
thunlp
實體關係抽取學習記錄
暑假要開始上手知識圖譜的專案了,所以就把之前的那些學習積累做乙個簡要的梳理,加油,你的所有積累都會在某一天帶給你意想不到的驚喜 接下來進入正題 但是有監督學習中人工標註資料十分侷限,並且還要做實體對齊那麼一旦面對巨大的資料量,就顯得工作量巨大繁雜。遠端監督就成為大家的寵兒。遠端監督認為知識圖譜中可獲...
實體 關係聯合抽取 入門資料彙總
寫在前面 實體 關係聯合抽取這個方向剛剛入門就要換方向了,很不捨,因此將自己這段時間看的一些入門資料分享出來,供大家學習,希望能起到一些拋磚引玉的作用。如有一絲幫助到您,請點讚支援,謝謝!1 命名實體識別 關係抽取標註工具 ncrf 序列標註模型 deepdive 史丹福大學開源知識抽取工具包 三元...
實體關係抽取任務及其解決思路
在nlp領域中,關係抽取任務,指的是為了構建知識圖譜,從結構化 表1 半結構化 表2 非結構化資料 表3 獲取形式為 事物1 關係 事物2 的三元組的活動。一些情況下,我們會想辦法把關係抽取抽象成若干三元組的抽取,而不會做 四元組 五元組的抽取。表1 若干文學形象的結構化資訊 結構化程度與實體關係抽...