中文復合事件抽取

2021-09-12 10:00:25 字數 3818 閱讀 3274

chinese compound event extraction,中文復合事件抽取,包括條件事件、因果事件、順承事件、反轉事件等事件抽取,並形成事理圖譜。

目前,知識圖譜在學術界如火如荼地進行,但受限於知識圖譜各個環節中的效能問題,還尚未能夠在工業界大規模運用。而與知識圖譜中以實體為知識節點,實體關係為實體關係邊對知識進行組織不同,事件圖譜,又稱事理圖譜,在目前也是很火的乙個研究方向。就事理圖譜而言,其從技術實現難度上不亞於知識圖譜。

本人目前在事件圖譜上的實驗工作有:

順承事件圖譜(

因果事件圖譜(

目前,想到其實中文的事件在顯式上的表達上遵循的是中文的複句表現形式。因此,打算對階段性的工作進行整理,進一步形成中文復合事件抽取專案(

接下來,將自己對事理圖譜工作的一些理解整理出來,對事件圖譜的型別、事件表示的相關方面進行歸納 。

事件含義

形式化事件應用

圖譜場景

舉例因果事件

某一事件導致某一事件發生

a導致b

事件預警

因果溯源 由因求果

《**,房屋倒塌》

條件事件

某事件條件下另一事件發生

如果a那麼b

事件預警

時機判定

《限制放寬,立即增產》

反轉事件

某事件與另一事件形成對立

雖然a但是b

預防不測

反面教材

《起步晚,發展快》

順承事件

某事件緊接著另一事件發生

a接著b

事件演化

未來意圖識別

《去旅遊,買火車票》

以因果事件為例:

已知句子:這幾天非洲鬧豬瘟,導致國內豬肉漲價

表示形式

含義舉例

優點缺點

短句以中文標點符號為分割邊界形成的短句

這幾天非洲鬧豬瘟&國內豬肉漲價

方便、最原始資訊

雜訊多,不易融合

詞序列對短句進行分詞、詞性標註、停用詞形成的詞序列

非洲鬧豬瘟&國內豬肉漲價

語義豐富、較短句形式短

停用規則不易控制

短語依存句法分析/語義角色標註,形成主謂短語、動賓短語、主謂賓短語

非洲鬧豬瘟&豬肉漲價

語義凝固簡潔

受限於依存、語義角色效能

本專案列舉了漢語句子表順承、條件、並列、轉折的關聯詞,詳見complex_sentence.py,例如:

'''轉折事件'''

def pattern_but(self):

wds = [[['與其'], ['不如'],'but'],

[['雖然','儘管','雖'],['但也','但還','但卻','但'],'but'],

[['雖然','儘管','雖'],[ '但','但是也','但是還','但是卻',],'but'],

[['不是'],['而是'],'but'],

[['即使','就算是'],['也','還'],'but'],

[['即便'],['也','還'],'but'],

[['雖然','即使'],['但是','可是','然而','仍然','還是','也', '但'],'but'],

[['雖然','儘管','固然'],['也','還','卻'],'but'],

[['與其','寧可'],['決不','也不','也要'],'but'],

[['與其','寧肯'],['決不','也要','也不'],'but'],

[['與其','寧願'],['也不','決不','也要'],'but'],

[['雖然','儘管','固然'],['也','還','卻'],'but'],

[['不管','不論','無論','即使'],['都', '也', '總', '始終', '一直'],'but'],

[['雖'],['可是','倒','但','可','卻','還是','但是'],'but'],

[['雖然','縱然','即使'],['倒','還是','但是','但','可是','可','卻'],'but'],

[['雖說'],['還是','但','但是','可是','可','卻'],'but'],

[['無論'],['都','也','還','仍然','總','始終','一直'],'but'],

[['與其'],['寧可','不如','寧肯','寧願'],'but']]

本專案基於1000w資訊進行實驗,共得到古復合中文事件模式237條,top10的模式結果為:

模式         頻次

but_雖然_但 1484690

but_儘管_但 1006669

condition_如果_就 763451

more_或_或 716354

more_也_還 675549

condition_如果_那麼 494417

more_不僅_也 483610

condition_只有_才 432495

more_不僅_還 429681

condition_無論_都 399225

事件型別

事件1事件2

反轉事件

不是 太多 而是 太少

雖然 小幅提漲 但是 成交不多

反轉事件

不是 在消費 而是 在社交

雖然 幅度不算大 但是 形態收好

反轉事件

不是 多了 而是 少了

雖然 緩慢 但是 步伐堅定

反轉事件

不是 目的 而是 手段

雖然 覺得有點坑 但是 毫無辦法

反轉事件

不是 太多 而是 太少

雖然 速緩 但是 質更優

反轉事件

不是 封閉的 而是 開放包容的

雖然 起步稍晚 但是 熱度不減

反轉事件

不是 乙個結果 而是 一種邏輯

雖然 壓力比較大 但是 努力過

反轉事件

不是 週期性的 而是 結構性的

雖然 沒有功勞 但是 我也有苦勞

條件事件

一旦 時機成熟 就 堅決推行

如果 資料疲軟 那麼 將打壓瑞郎

條件事件

一旦 觸發 就 不可逆了

如果 美元漲 那麼 **應該跌

條件事件

一旦 形成 就 很難改變

如果 慣性** 那麼 請及時平倉

條件事件

一旦 產生恐慌 就 會手忙腳亂

如果 英國退歐 那麼 金價將**

條件事件

一旦 制定了目標 就 必須完成

如果 比值上公升 那麼 進口將盈利

條件事件

一旦 停產 就 失去了份額

如果 是趨勢 那麼 就順勢操作

條件事件

一旦 超調貶值 就 會失控

如果 看跌 那麼 趕緊跑

1、反轉事件圖譜

2、條件事件圖譜

1、本專案對事件圖譜的型別、表現形式進行了歸納,並結合復合事件模式與語料進行了實驗。

2、實驗表明,反轉事件,其實在某種程度上可以用來構造反義詞詞典,例如"不是a而是b"這種模式,可以得到很多反義的詞或短語,這讓我想到了我的乙個反義詞專案介面:( ,我們可以用wordvector找相近詞,可以靠這種方式收集反義詞,對了,還可以加上情緒。

3、實驗表明,漢語顯示標記其實在中文文字當中還是用的很普遍的,我統計了以下,跑了1000w文字,有超過半數的文字中包含以上模式。因此,如果能夠把顯示事件圖譜做好,感覺用處還是很多的。

4、本專案還有很多不足,比如模式上,比如對事件型別和事件表示的看法上,歡迎補充。

5、if any question about the project or me ,see

事件抽取學習筆記

通過自動化工具將電子文件中的基礎資訊 找到感興趣的資訊,自動提取 事件 某個時間,某個地域,乙個或者多個角色,乙個或者多個動作組成的一件事情。事件抽取 事件抽取技術是從非結構化資訊中抽取出使用者感興趣的事件,並以結構化呈現給使用者,事件抽取任務分為 元事件抽取,主題事件抽取。元事件 乙個動作的發生或...

讀書筆記 關係抽取和事件抽取

讀完趙軍主編的 知識圖譜 第六章和第七章,對關係抽取和事件抽取簡單做一下筆記。關係抽取 定義 自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取 兩個實體 和多元關係抽取 三個及以上實體 通過關注兩個實體間的語義關係,可以得到 arg1,relation,arg2 三元組,其...

事件抽取的簡單方法

再構建event graph,不免要用到event extraction的方法,這裡引用了一篇別人的總結作為參考學習 關係抽取 定義 自動識別實體之間具有的某種語義關係。根據參與實體的多少可以分為二元關係抽取 兩個實體 和多元關係抽取 三個及以上實體 通過關注兩個實體間的語義關係,可以得到 arg1...