文字蘊含日記2 注意力機制

2021-10-03 04:37:11 字數 815 閱讀 1610

注意力attention,人類在觀察周圍環境時,總會優先注意到一些部分來獲取自己需要的資訊,這些部分就代表了周圍環境的某種描述。而注意力機制通過學習不同區域性的重要性,再結合起來。對attention常見的有三種理解:

(1)從數學公式和**實現上attention可以理解為加權求和;

(2)從形式上attention可以理解為鍵值查詢;

(3)從物理意義上attention可以理解為相似性度量。

attention mechanism 的大量使用源於機器翻譯。機器翻譯本質上是解決乙個sequence to sequence問題。

如上圖所示,sequence-to-sequence一般有5中形式,區別在於輸入和輸出序列的長度,以及是否同步產出。具體到每乙個基本的模組,又能用不同的網路結構實現,包括cnn、rnn。但是它們的實現基本上離不開乙個固定的結構:encoder-decoder結構。注意力機制一定程度上解決了上述問題。對於怎麼劃分權重,attention給出的答案是:讓輸出序列決定。

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...

注意力機制

深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...

注意力機制筆記

本文是對深度學習中的注意力機制做的筆記,並附上注意力機制應用的部分例子。首先,從其功能感受下注意力機制的作用。來自這裡 上圖展示了引入attention後框架的變化 由固定的語義編碼c變為根據輸出不斷變化的 公式中 抽象為更一般的模型如下 相似度計算 階段1 相似度的歸一化 階段2 計算attent...