Attention機制的簡要介紹

2021-10-24 12:43:57 字數 907 閱讀 2979

attention機制說白了就是加權求和

attention機制之所以看上去繁複冗雜是因為有很多的種類,按照不同的分類標準,可以分為以下幾種型別:

1、計算區域

hard attention:精準定位到某個key,此key權重概率為1,其餘key為0。

local attention:上述兩者折中。先基於hard定位到某key,然後在key的乙個視窗內應用soft。

2、所用資訊:假設要對一段原文進行attention處理,可能會用到內部資訊和外部資訊。

general attention:用到了外部資訊,常見於用來構建兩段文字關係的任務。query一般包含了外部資訊,根據外部query對原文進行對齊。

l2. ocal attention:只使用內部資訊,即query、key、value都只和輸入原文有關係,如:self attention。

3、結構層次

單層attention:用乙個query對一段原文進行一次attention。

多層attention:比如把乙個文件劃分成多個句子。第一層對每個句子使用attention計算乙個句向量,第二層對所有句向量執行attention生成文件向量進行後續使用。

4、模型結構

cnn+attention:可對卷積層輸出做attention或者可用attention替換max pooling。

lstm+attention:如對所有step的hidden state進行加權,把注意力集中到整段文字中比較重要的hidden state資訊。

純attention:最經典的方案,如《attention is all you need》就屬於這種。

參考:

Attention機制的文章總結

這兩年,看到了很多關於attention機制的文章,尤其在影象領域。可能大家都覺得這個好用,從頂刊頂會到國產會議,這個attention機制偏低開花。本文結合自己的研究方向,簡單總結一下有關於attention機制的文章。由於我研究的是2d human pose estimation,我接觸的第一篇...

Attention機制全解

目錄 之前已經提到過好幾次attention的應用,但還未對attention機制進行系統的介紹,之後的實踐模型attention將會用到很多,因此這裡對attention機制做乙個總結。注意力機制 attention mechanism 首先是用於解決 sequence to sequence 問...

Attention機制全解

目錄 系統流 wap.kuwx.net 之前已經提到過好幾次attention的應用,但還未對attention機制進行系統的介紹,之後的實踐模型attention將會用到很多,因此這裡對attention機制做乙個總結。注意力機制 attention mechanism 首先是用於解決 seque...