通過自動化工具將電子文件中的基礎資訊->找到感興趣的資訊,自動提取
事件:某個時間,某個地域,乙個或者多個角色,乙個或者多個動作組成的一件事情。
事件抽取:事件抽取技術是從非結構化資訊中抽取出使用者感興趣的事件,並以結構化呈現給使用者,
事件抽取任務分為:元事件抽取,主題事件抽取。
元事件:乙個動作的發生或者狀態變化,往往由動詞驅動,也可以由能表示動作的名詞或者其他磁性的次來觸發,它包括改動做的主要成分(事件、地點、任務等)
事件抽取包括 自然語言/機器學習/模式匹配等多個學科
元事件抽取:
元事件抽取的主要研究方法有模式匹配和機器學習兩大類
模式匹配在特定領域內能取得較高的效能,但移植性比較差
機器學習與領域無關,系統移植性較好
基於模式匹配的元事件抽取:
模式匹配方法是在一些模式的指導下進行時間的識別和抽取,模式主要用於指明構成目標資訊的上下文約束環境,集中體現了領域知識和語言知識的融合,抽取時只需要通過各種模式匹配演算法找出復合模式約束條件的資訊即可
核心是抽取模式的構建
起初,模式通過手工方法來建立,但這種方法費時費力,需要使用者具有較高的技能水平
現在為了方便快捷的獲取模式,提高系統的可移植性,需要採用機器學習來自動獲取模式
模式的自動獲取,基於領域無關概念知識庫的時間抽取模式學習方法genpam,使用者只需要定義ie職務,無需提供種子模式和對預料分類和標註,系統能夠自動的從未經分類和標準的預料中學習出ie模式
流程:句子文字->識別器->事件句->事件
事件句的一局:該句文字中包含時間地點人物動作主題等基本事件元素
事件觸發詞:動詞或者介詞為主
命名實體識別和事件抽取
命名實體是指的文字中具有特定意義的試題包括:人名地名機構明日起身份...等等具有實際意義的東西
事件的主要構成為事件元素,不同的事件的識別任務中的事件元素的類別不完全相同
常用的命名實體,時間動作,事件發生原因和引起的後果等|可以借助命名實體來識別事件句,也可以借助事件句的明顯特徵,先識別事件句然後識別命名實體
效果評測:
f = 2 *pr/(p+r)
c = cmiss *l * liar + cfa * m * (1-liar)
f為薇平均值 p為準確率 r為召回率
c為錯誤識別代價 l為丟失率 m為誤報率 cmiss為一次丟失的代價 cfa為一次誤報的代價
薇平均法通常多用於單一事件抽取任務中
話題追蹤用錯誤識別代價
基於規則的方法首先建立事件或者事件句的末班或者本體實現事件抽取。這種方法多應用於事件句或者時間具有明顯的特徵,容易對其進行普通形式化描述
基於統計的方法一般將時間抽取問題轉化為句子文字的分類問題,應用此類演算法抽取時間的句子文字或者時間沒有明顯的特徵,用基於機器學習的統計類演算法得出事件句的模式特徵,,實現時間抽取模式。hmm crf vm me
基於模式匹配的時間抽取的演算法,通過手工或者自動建立的有關事件句特徵形式化表示的末班指導實踐抽取的方法--模式匹配
語義角色標註、事件本體法
只要必要元素對應的予以角色全部出現,則認為匹配到了時間
實施者 受試者 時間 動詞
事件本體法:定義時間的實體元素組,事件類別和事件之間的關係,進而獲得時間的特徵項構件,最後基於時間特徵項挖掘時間以及事件間的關係
事件間的關係:類關係/非類關係
費雷關係:組分關係,原因結果關係,跟隨關係
事件實體元組:參與者,事件,地點,裝置事件,事物 參與者包括:實施者和受試者
1.專家基於經驗構造2.通過已有詞彙分析統計,提取事件觸發詞,手工構件
過程:事件類別識別ace的8大類33中子類 事件元素識別
讀書筆記 關係抽取和事件抽取
讀完趙軍主編的 知識圖譜 第六章和第七章,對關係抽取和事件抽取簡單做一下筆記。關係抽取 定義 自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取 兩個實體 和多元關係抽取 三個及以上實體 通過關注兩個實體間的語義關係,可以得到 arg1,relation,arg2 三元組,其...
中文復合事件抽取
chinese compound event extraction,中文復合事件抽取,包括條件事件 因果事件 順承事件 反轉事件等事件抽取,並形成事理圖譜。目前,知識圖譜在學術界如火如荼地進行,但受限於知識圖譜各個環節中的效能問題,還尚未能夠在工業界大規模運用。而與知識圖譜中以實體為知識節點,實體關...
事件抽取的簡單方法
再構建event graph,不免要用到event extraction的方法,這裡引用了一篇別人的總結作為參考學習 關係抽取 定義 自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取 兩個實體 和多元關係抽取 三個及以上實體 通過關注兩個實體間的語義關係,可以得到 arg1...