自注意力機制總結

2021-10-04 20:21:16 字數 1068 閱讀 1221

參考文獻:attention is all you need

和seq2seq模型一樣,transformer模型中也採用了encoder-decoder結構。文章中encoder與decoder層都是由6個encoder/decoder單元堆疊在一起。

整體框架如上,但是看起來較複雜,可以簡化如下乙個seq2seq模型。

文中重要的一點是討論左邊編碼器輸出是如何與右邊解碼器相結合的,直觀圖如下:

即encoder的輸出會和每一層的decoder進行結合。

attention用於計算「相關程度」,例如在翻譯過程中,不同的英文對中文的依賴程度不同,attention通常可以進行如下描述,表示為將query(q)和key-value對對映到輸出上,其中每個query、每個key、每個value都是向量,輸出是v中所有values的加權,其中權重是由query和每個key計算出來的。

這種通過query與key的相似性程度來確定value的權重分布的方法被稱為scaled dot-product attention。

注:

在encoder的self-attention中,q、k、v都來自同乙個地方,它們是上一層encoder的輸出。對於第一層的encoder,它們就是word embedding和position embedding相加得到的輸入。

在decoder中,q、k、v都來自同乙個地方,它們是上一層decoder的輸出。對於第一層decoder,它們就是word embedding和position embedding相加得到的輸入。

參考

Self Attention 自注意力機制

self attention是提出transformer的 attention is all you need 中提出的一種新的注意力機制,這篇博文僅聚焦於self attention,不談transformer的其他機制。self attention直觀上與傳統seq2seq attention機...

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...

注意力機制

深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...