am(attention注意力機制學習筆記
一.關於《注意力模型–attention注意力機制》的學習
1.attention 機制可以分為兩種:soft attention和 hard attention.
soft attention:是所有的資料都會注意,都會計算出相應的注意力權值,不會設定篩選條件。
hard attention:會在生成注意力權重後篩選掉一部分不符合條件的注意力,讓它的注意力權值為0,即可以理解為不再注意這些不符合條件的部分。
2.encoder-decoder框架
大多am是附著在編碼-解碼框架下的,但是am模型可以看作一種通用的思想,本身並不依賴於encoder-decoder模型,encoder-decoder框架可以看作是一種文字處理領域的研究模式,如下圖,可以把它看作適合處理由乙個句子(或篇章)生成另外乙個句子(或篇章)的通用處理模型。
圖1. 非am encoder-decoder 框架
例1. 輸入x:tom chase jerry。 理想輸出:湯姆追逐傑瑞。
在翻譯此句子的時候,如果在翻譯「傑瑞」的時候,體現出英文單詞對於翻譯當前中文單詞不同的影響程度,就體現出了注意力機制。比如給出類似下面乙個概率分布值,每個英文單詞的概率代表了翻譯當前單詞「傑瑞」時,注意力分配模型分配給不同英文單詞的注意力大小。
(tom,0.3)(chase,0.2)(jerry,0.5)
這意味著在生成每個單詞yi的時候,原先都是相同的中間語義表示c會替換成根據當前生成單詞而不斷變化的ci。理解am模型的關鍵就是這裡,即由固定的中間語義表示c換成了根據當前輸出單詞來調整成加入注意力模型的變化的ci。
圖2.am encoder-decoder 框架
即生成目標句子單詞的過程成了下面的形式:
y1=f1(c1)
y2=f1(c2,y1)
y3=f1(c3,y1,y2)
3.注意力權重獲取過程
encoder採用rnn模型,decoder也採用rnn模型,是比較常見的一種模型配置,如下圖:
圖3. rnn模型encoder-decoder框架
圖4. am注意力分配概率計算
對於採用rnn的decoder來說,如果要生成yi單詞,在時刻i,我們是可以知道在生成yi之前的隱層節點i時刻的輸出值hi的,而我們的目的是要計算生成yi時的輸入句子單詞「tom」、「chase」、「jerry」對yi來說的注意力分配概率分布,那麼可以用i時刻的隱層節點狀態hi去一一和輸入句子中每個單詞對應的rnn隱層節點狀態hj進行對比,即通過函式f(hj,hi)來獲得目標單詞yi和每個輸入單詞對應的對齊可能性,這個f函式在不同**裡可能會採取不同的方法,然後函式f的輸出經過softmax進行歸一化就得到了符合概率分布取值區間的注意力分配概率分布數值(這就得到了注意力權重)。圖5顯示的是當輸出單詞為「湯姆」時刻對應的輸入句子單詞的對齊概率。
from:
二.am在翻譯方面的應用
注意力機制的秘方在於,它建立了乙個上下文向量與整個源句之間的快捷方式,而不只是通過編碼器最後一步的隱層狀態來生成上下文向量。這些快捷方式的連線權重是根據每個輸出元素自適應計算出來的。
from:
三.《residual attention network for image classification》cvpr 2017
1.注意力機制的本質:一系列的注意力分配係數,也就是一系列權重引數,可以用來強調或選擇目標處理物件的重要資訊,並且抑制一些無關的細節資訊。
2.殘差注意力網路:是乙個卷積神經網路,其中引入了混合注意力機制,並且網路結構非常地深。
3.引入注意力機制的意義:
(1)選擇聚焦位置,產生更具分辨性的特徵表示:網路由大量的注意力模組(attention module)組成,能產生注意力感知的(attention-aware)的特徵,並且不同模組的特徵,隨著增加更多的注意力模組,可以線性提公升網路的分類效能,基於不同深度的特徵圖可以提取額外的注意力模型。
漸增的注意力模組將帶來持續的效能提公升:殘差注意力模型可以結合到目前的大部分深層網路中,做到end-to-end訓練結果,因為殘差結構的存在,可以很容易將網路擴充套件到百數層,不同型別的attention將被大量捕捉到。並且使用該種策略可以在達到其他大網路的分類準確率的同時顯著降低計算量。
4.左圖顯示了在殘差注意力網路中主幹網路和注意力模組之間的關係,注意力模組為主幹網路以某乙個特徵圖為節點的分叉子網路;右圖中的結果顯示網路模型中,不同層特徵圖響應的注意力不同,在淺層結構中,網路的注意力集中於背景等區域,而在深層結構中,網路的注意力特徵圖(attention feature map)聚焦於待分類的物體。這與之前的很多任務作結論類似,那就是深層次的特徵圖具有更高的抽象性和語義表達能力,對於物體分類較淺層特徵有較大的作用。
注意力漂移
在學習李笑來的一本講自學的新書時,我學習到乙個概念 注意力漂移,這個概念很好的概況了自己有時候在生活工作中的一種狀態。如果你對上面的場景特別熟悉,那麼需要自己注意了,如果上面的場景經常在你的生活工作 現,你可能並不是乙個高效的工作者。在上面的例子中,我發現時間過去了,自己想做的工作卻幾乎沒有進展,問...
注意力機制
從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...
注意力機制
深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...