這篇寫的簡直太好了,不愧是阿里啊!
又根據key==value這樣,分為普通模式和鍵值對模式:
也就是計算相似度的方式不同,可以通過點乘/cos相似度/mlp實現
也就是求權重的方式不同,分為global/local attention ,local 是部分輸入向量才能進入這個池子。有local-m 和 local-p兩個方案。
但好像local增益不大。
soft/hard att。
hard attention 是乙個隨機取樣,取樣集合是輸入向量的集合,取樣的概率分布是alignment function 產出的 attention weight。因此,hard attention 的輸出是某乙個特定的輸入向量。
soft attention 是乙個帶權求和的過程,求和集合是輸入向量的集合,對應權重是 alignment function 產出的 attention weight。
硬注意力機制的缺點:
rnn 由於遞迴的本質,導致無法並行。cnn 在 nlp 中扮演了n-gram 的 detector角色,在層內可以並行。
它的 perceptive field 是整個句子,所以任意兩個位置建立關聯是常數時間內的。
沒有了遞迴的限制,就像 cnn 一樣可以在每一層內實現並行。
self-attention 借鑑cnn中 multi-kernel 的思想,進一步進化成為 multi-head attention。
關於transform中的上面這個圖我看不太懂,是什麼意思呢?就maskeddecoder這個部分看不懂。
是因為它懂得了"context is everything"。
語言模型(language model)是整個 nlp 領域的基礎,語言模型的精準程度基本上直接掌握所有 nlp 任務效果的命脈。而 context 又掌握著語言模型的命脈,語義不孤立,在特定 context 下展示特定的一面模型如果可以學習到這些知識,就可以達到見人說人話,見鬼說鬼話的理想狀態。
在語義表達上能把 context 用好的都是成功的典範:
attention 背後本質的思想就是:在不同的 context 下,focusing 不同的資訊。
梳理下中文編碼的歷史
最早,計算機使用7位編碼來表示英語字元,而其他使用拉丁字母 希臘字母 西里爾字母 希伯來字母等的語文,由於只使用數十個字母,傳統上均使用8位編碼的iso iec 8859標準來表示。但由於漢語 日語及朝鮮語字數眾多,無法用單乙個8位字元來表達,故需要多於乙個位元組來代表乙個字。於是,iso 2022...
機器學習 Attention
rnn做機器翻譯有它自身的弱點,attention正是為了克服這個弱點而出現的。所以,要理解attention,就要搞明白兩件事 rnn在做機器翻譯時有什麼弱點 attention是如何克服這個弱點的 本文試圖從解答這兩個問題的角度來理解attention機制。如果你對rnn還不是很熟悉,建議看看這...
Attention機制全解
目錄 之前已經提到過好幾次attention的應用,但還未對attention機制進行系統的介紹,之後的實踐模型attention將會用到很多,因此這裡對attention機制做乙個總結。注意力機制 attention mechanism 首先是用於解決 sequence to sequence 問...