自注意力 self attention

2021-08-19 19:34:15 字數 488 閱讀 8477

注意力機制不僅能用來處理編碼器或前面的隱藏層,它同樣還能用來獲得其他特徵的分布,例如閱讀理解任務中作為文字的詞嵌入 (kadlec et al., 2017) [37]。然而,注意力機制並不直接適用於分類任務,因為這些任務並不需要情感分析(sentiment analysis)等額外的資訊。在這些模型中,通常我們使用 lstm 的最終隱藏狀態或像最大池化和平均池化那樣的聚合函式來表徵句子。

自注意力機制(self-attention)通常也不會使用其他額外的資訊,但是它能使用自注意力關注本身進而從句子中抽取相關資訊 (lin et al., 2017) [18]。自注意力又稱作內部注意力,它在很多任務上都有十分出色的表現,比如閱讀理解 (cheng et al., 2016) [38]、文字繼承 (textual entailment/parikh et al., 2016) [39]、自動文字摘要 (paulus et al., 2017) [40]。

Self Attention 自注意力機制

self attention是提出transformer的 attention is all you need 中提出的一種新的注意力機制,這篇博文僅聚焦於self attention,不談transformer的其他機制。self attention直觀上與傳統seq2seq attention機...

自注意力機制總結

參考文獻 attention is all you need 和seq2seq模型一樣,transformer模型中也採用了encoder decoder結構。文章中encoder與decoder層都是由6個encoder decoder單元堆疊在一起。整體框架如上,但是看起來較複雜,可以簡化如下乙...

注意力漂移

在學習李笑來的一本講自學的新書時,我學習到乙個概念 注意力漂移,這個概念很好的概況了自己有時候在生活工作中的一種狀態。如果你對上面的場景特別熟悉,那麼需要自己注意了,如果上面的場景經常在你的生活工作 現,你可能並不是乙個高效的工作者。在上面的例子中,我發現時間過去了,自己想做的工作卻幾乎沒有進展,問...