前一篇我們學習了 seq2seq 模型,從它的模型結構中我們可以看到存在兩個瓶頸:
例如,當我們用 seq2seq 翻譯一句話時,它的 encoder 需要將原始句子中的主語,謂語,賓語,以及主謂賓之間的關係等資訊都壓縮到乙個固定長度的上下文向量中,這個向量的長度通常只是 128 或者 256,如果輸入資料很長時,就會有很多資訊無法被壓縮進這麼短的向量中。
另乙個瓶頸是,這個上下文向量在 decoder 中只是在最開始的時候傳遞一次,之後都要靠 decoder 自己的 lstm 單元的記憶能力去傳遞資訊,這樣當遇到長句子時,記憶能力也是有限的。
於是為了改善這兩個問題,bahdanau 在 2015 年首次提出注意力模型。
在這個注意力模型中,decoder 的每乙個時間步都可以訪問到 encoder 的所有狀態資訊,這樣記憶問題得以改善,而且在 decoder 的不同時間步可以對 encoder 中不同的時間步予以不同程度的關注,這樣重要資訊不會被淹沒。
我們來更直觀地對比看一下有和沒有注意力機制的 seq2seq 模型有什麼區別:
在沒有注意力的 seq2seq 中,上下文向量是 encoder 最後的隱向量,在 attention 中,上下文向量是這些隱向量的加權平均。
在沒有注意力的 seq2seq 中,上下文向量只是在 decoder 開始時輸入進去,在 attention 中
注意力漂移
在學習李笑來的一本講自學的新書時,我學習到乙個概念 注意力漂移,這個概念很好的概況了自己有時候在生活工作中的一種狀態。如果你對上面的場景特別熟悉,那麼需要自己注意了,如果上面的場景經常在你的生活工作 現,你可能並不是乙個高效的工作者。在上面的例子中,我發現時間過去了,自己想做的工作卻幾乎沒有進展,問...
注意力機制
從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...
注意力機制
深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...