注意力機制本質上與人類對外界事物的觀察機制相似。通常來說,人們在觀察外界事物的時候,首先會比較關注比較傾向於觀察事物某些重要的區域性資訊,然後再把不同區域的資訊組合起來,從而形成乙個對被觀察事物的整體印象。注意力機制能夠使得深度學習在觀察目標時更加具有針對性,使得目標識別與分類的精度都有所提公升
attention mechanism可以幫助模型對輸入的每個部分賦予不同的權重,抽取出更加關鍵及重要的資訊,使模型做出更加準確的判斷,同時不會對模型的計算和儲存帶來更大的開銷。
總的來說,注意力機制可分為兩種:一種是軟注意力(soft attention),另一種則是強注意力(hard attention)。
軟注意力(soft attention)與強注意力(hard attention)的不同之處在於:
強注意力是更加關注點,也就是影象中的每個點都有可能延伸出注意力,同時強注意力是乙個隨機的**過程,更強調動態變化。當然,最關鍵是強注意力是乙個不可微的注意力,訓練過程往往是通過增強學習(reinforcement learning) 來完成的。
cv中的注意力機制
深度學習與視覺注意力機制結合的研究工作,大多數是集中於使用掩碼(mask)來形成注意力機制。掩碼的原理在於通過另一層新的權重,將資料中關鍵的特徵標識出來,通過學習訓練,讓深度神經網路學到每一張新中需要關注的區域,也就形成了注意力。
計算機視覺中的注意力機制的基本思想是讓模型學會專注,把注意力集中在重要的資訊上而忽視不重要的資訊。
attention機制的本質就是利用相關特徵圖學習權重分布,再用學出來的權重施加在原特徵圖之上最後進行加權求和。不過施加權重的方式略有差別,大致總結為如下四點:
為了更清楚地介紹計算機視覺中的注意力機制,通常將注意力機制中的模型結構分為三大注意力域來分析。主要是:空間域(spatial domain),通道域(channel domain),混合域(mixed domain)。
空間域——將中的的空間域資訊做對應的空間變換,從而能將關鍵的資訊提取出來。對空間進行掩碼的生成,進行打分,代表是spatial attention module。
通道域——類似於給每個通道上的訊號都增加乙個權重,來代表該通道與關鍵資訊的相關度的話,這個權重越大,則表示相關度越高。對通道生成掩碼mask,進行打分,代表是senet, channel attention module。
混合域——空間域的注意力是忽略了通道域中的資訊,將每個通道中的特徵同等處理,這種做法會將空間域變換方法侷限在原始特徵提取階段,應用在神經網路層其他層的可解釋性不強。
卷積神經網路中常用的attention
在卷積神經網路中常用到的主要有兩種:一種是spatial attention, 另外一種是channel attention。當然有時也有使用空間與通道混合的注意力,其中混合注意力的代表主要是bam, cbam。
spatial attention:
對於卷積神經網路,cnn每一層都會輸出乙個c x h x w的特徵圖,c就是通道,同時也代表卷積核的數量,亦為特徵的數量,h 和w就是原始經過壓縮後的圖的高度和寬度,
spatial attention就是對於所有的通道,在二維平面上,對h x w尺寸的特徵圖學習到乙個權重,對每個畫素都會學習到乙個權重。你可以想象成乙個畫素是c維的乙個向量,深度是c,在c個維度上,權重都是一樣的,但是在平面上,權重不一樣。
channel attention:
對於每個c(通道),在channel維度上,學習到不同的權重,平面維度上權重相同。所以基於通道域的注意力通常是對乙個通道內的資訊直接全域性平均池化,而忽略每乙個通道內的區域性資訊。
spatial 和 channel attention可以理解為關注的不同區域和關注的不同特徵。channel attention的全面介紹可以參考**:sca-cnn,通道注意力在影象分類中的網路結構方面,典型的就是senet。
計算機視覺中的注意力機制
外部世界的資訊是豐富多樣的,但是我們大腦的計算能力是有限的。所以人類會有選擇的分析我們認為重要的那部分資訊,忽略其他不重要的資訊。這種能力就叫做注意力。注意力可分為兩種 自上而下的有意識的注意力,稱為聚焦式注意力。主要討論 自下而上的無意識的注意力,稱為基於顯著性的注意力。在計算機視覺領域,注意力機...
計算機視覺中的注意力機制
計算機視覺中的注意力機制 attention 機制在近幾年來在影象,自然語言處理等領域中都取得了重要的突破,被證明有益於提高模型的效能。attention機制本身也是符合人腦和人眼的感知機制。attention 機制,便是聚焦於區域性資訊的機制,比如影象中的某乙個影象區域。隨著任務的變化,注意力區域...
注意力機制
從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...