讀書筆記 關係抽取和事件抽取

2022-09-11 06:03:11 字數 1398 閱讀 6360

讀完趙軍主編的《知識圖譜》第六章和第七章,對關係抽取和事件抽取簡單做一下筆記。

關係抽取

定義:自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取(兩個實體)和多元關係抽取(三個及以上實體)。

通過關注兩個實體間的語義關係,可以得到(arg1, relation, arg2)三元組,其中arg1和arg2表示兩個實體,relation表示實體間的語義關係。

根據處理資料來源的不同,關係抽取可以分為以下三種:

根據抽取文字的範圍不同,關係抽取可以分為以下兩種:

根據所抽取領域的劃分,關係抽取又可以分為以下兩種:

限定域關係抽取方法:

基於機器學習的關係抽取方法:將關係抽取看成是乙個分類問題

其中基於機器學習的關係抽取方法又可分為 有監督 和 弱監督。

有監督的關係抽取方法:

弱監督的關係抽取方法:不需要人工標註大量資料。

距離監督:用開放知識圖譜自動標註訓練樣本,不需要人工逐一標註,屬弱監督關係抽取的一種。

開放域關係抽取方法:

不需要預先定義關係類別,使用實體對上下文中的一些詞語來描述實體之間的關係。

總結:限定域關係抽取是目前研究的主流方向。

傳統的基於模板的關係抽取方法可擴充套件性差,基於機器學習的關係抽取方法是目前研究的熱點。

基於有監督學習的關係抽取需要人工標註大量訓練資料,耗時費力,基於弱監督學習的關係抽取得到了越來越多的關注。

事件抽取

定義:從描述事件資訊的文字中抽取出使用者感興趣的事件並以結構化的形式呈現出來。

步驟:首先識別出事件及其型別,其次要識別出事件所涉及的元素(一般是實體),最後需要確定每個元素在事件中所扮演的角色。

限定域事件抽取:在進行抽取之前,預先定義好目標事件的型別及每種型別的具體結構(包含哪些具體的事件元素),通常會給出一定數量的標註資料。

限定域事件抽取方法:

基於機器學習的方法

弱監督事件抽取方法:不需要人工大量標註樣本,但需要給出具有規範語義標籤(事件類別、角色名稱等)的標註訓練資料

基於distant supervison的事件抽取:完全自動生成事件標註樣本,利用結構化的事件知識庫直接在非結構化文字中回標訓練樣本

開放域事件抽取:在進行事件識別之前,可能的事件型別以及事件的結構都是未知的,因此該任務通常沒有標註資料,主要基於無監督的方法和分布假設理論。

分布假設理論:如果候選事件觸發詞或者候選事件元素具有相似的語境,那麼這些候選事件觸發詞傾向於觸發相同型別的事件,相應的候選事件元素傾向於扮演相同的事件元素。

開放域事件抽取方法:

事件關係抽取,以事件為基本語義單元,實現事件邏輯關係的深層檢測和抽取,包括:

總結:組織和構建同時包含實體、實體關係、事件、事件關係的事件知識圖譜得到了越來越多的關注。

事件抽取學習筆記

通過自動化工具將電子文件中的基礎資訊 找到感興趣的資訊,自動提取 事件 某個時間,某個地域,乙個或者多個角色,乙個或者多個動作組成的一件事情。事件抽取 事件抽取技術是從非結構化資訊中抽取出使用者感興趣的事件,並以結構化呈現給使用者,事件抽取任務分為 元事件抽取,主題事件抽取。元事件 乙個動作的發生或...

小規模資料量下的關係抽取和實體抽取

基於這些原因,我思考認為還是要用crf來從句子裡抽領域詞,可是我們沒有現成的標註資料,所以我想的是先標一小部分句子,去 另一些句子,然後再人工簡單對這些句子抽出來的領域詞做修正。但是這就會有兩個問題 資料量太小 時間緊張,當時還有兩科考試,我不可能手動標特別多實體。但是只簡單的標一點實體去 得到的效...

讀書筆記c 高階程式設計 委託和事件

在c 中使用乙個類時,分兩個階段。首先需要定義這個類,即告訴編譯器這個類由什麼欄位和方法組成。然後 除非只使用靜態方法 例項化類的乙個物件。使用委託時,也需要經過這兩個步驟。首先定義要使用的委託,對於委託,定義它就是告訴編譯器這種型別代表了那種型別的方法,然後建立該委託的乙個或多個例項。定義委託是從...