多例項 選擇注意力機制進行遠端關係抽取

2021-10-10 01:46:14 字數 1534 閱讀 8097

**:acl2016-neural relation extraction with selective attention over instances

遠端監督關係的抽取:被廣泛用於從文字中找到新的關係,但這卻總會伴著錯誤的標籤,基於這個問題,後面提出了將多例項與神將網路相結合的方法,但會丟失大量有用的資訊,訓練效果並不好。

因此,本文提出一種基於句子級注意力的cnn用於遠端監督關係抽取

輸入乙個句子以及兩個實體,我們的model對每個關係r的可能性進行計算

兩個模組:

sentence encoder:輸入句子x和兩個entity,經過cnn後生成對應的句子表示x

selective attention over instance:基於例項的選擇性注意

如圖所示,具體流程為:

1、輸入含m個word的序列x=生成word embedding

2、資訊提取中,接近entity的word是最能提供資訊以決定是否有關係,因此我們應用位置嵌入,他可以跟蹤與頭實體或尾實體的接近程度,最終生成的每個單詞的嵌入矩陣為

3、主要的問題是句子長度是可變的,資訊可能存在於任何區域,我們通過卷積層合併所有特徵。

我們通過乙個長度為l的滑動視窗從句子上提取區域性特徵,這裡的卷積被定義為卷積矩陣

第i層卷積計算為:

(這裡我理解

w為乙個

dc層的卷積矩陣,生成dc個

m維向量,然後拼接在一起,生成乙個r(

dc*m

)的矩陣)

最後經過池化層,池化層可以直接取最大值,或者採取分段最大池化,然後拼接的方法。

4、selective attention over instance:

我們定義s=,表示句子的集合

集合向量為

我們用兩種方法定義a 平均x或選擇性注意,

選擇性注意:

而這個e用來定義xi和關係r的相似程度

我們首先意識到,這裡是乙個注意力機制,而注意力機制最關鍵的地方便是找到context vector,普通的選擇性注意力機制,需要extra information來計算相似度,而這個地方,便是關係r,我們通過不斷的學習,生成變數r,最奇特的是r是我們學習得來的,也就是說這個r可以是關係r,甚至可以說成是什麼context vector,這都是我們解釋得來的,後面我會好好解釋一下這個地方。

最後經過乙個輸出層,然後softmax操作生成乙個概率向量,在已知對應關係r的條件下,最大化對應的概率,如下面的公式:

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...

注意力機制

深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...

注意力機制筆記

本文是對深度學習中的注意力機制做的筆記,並附上注意力機制應用的部分例子。首先,從其功能感受下注意力機制的作用。來自這裡 上圖展示了引入attention後框架的變化 由固定的語義編碼c變為根據輸出不斷變化的 公式中 抽象為更一般的模型如下 相似度計算 階段1 相似度的歸一化 階段2 計算attent...