注意力機制中的Q K和V的意義

2021-09-20 18:32:56 字數 904 閱讀 3879

以翻譯為例:

source:我 是 中國人

target: i  am chinese

比如翻譯目標單詞為 i 的時候,q為i

而source中的 「我」   「是」  「中國人」都是k,

那麼q就要與每乙個source中的k進行對齊(相似度計算);"i"與"我"的相似度,"i"與"是"的相似度;"i"與"中國人"的相似度;

相似度的值進行歸一化後會生成對齊概率值(「i"與source中每個單詞的相似度(和為1)),也可以注意力值;

而v代表每個source中輸出的context vector;如果為rnn模型的話就是對應的狀態向量;即key與value相同;

然後相應的v與相應的p進行加權求和,就得到了context vetor;

從網上找到了一張圖更能證明我的理解的正確性;

階段1中的f函式是乙個計算得分的函式;比如可以用前饋神經網路結構進行計算得分:

這裡的v與上面的v是不一樣的,這屬於乙個單隱藏層的前饋神經網路;v屬於隱藏層啟用後的乙個計算得分的權重係數矩陣;

w屬於啟用前的權重係數矩陣;

這裡應該是輸出神經元為乙個得分值;所以需要多個前饋神經網路同時計算每個hi的得分;與我預想的不同,以為乙個前饋神經網路就可以輸出所有對應的得分,即輸出層的維度是與input序列長度一樣;(目前的理解);為什麼不與預想的一致呢?

然後對所有得分進行歸一化,一般選擇softmax方法;讓權重係數為1

第二階段:將hi與對應的權重係數相乘得到乙個context vector;即注意力值;

注意力機制的理解(借鑑)

如圖是在文字處理領域的encoder decoder框架。encoder 對輸入句子進行編碼,通過非線性比變換轉化為中間語義表示c decoder 根據中間語義c和之前的歷史資訊,生成輸出語句 每個yi都是依次產生的。上圖中展示的encoder decoder框架是沒有體現出 注意力模型 的,可以看...

計算機視覺中的注意力機制

外部世界的資訊是豐富多樣的,但是我們大腦的計算能力是有限的。所以人類會有選擇的分析我們認為重要的那部分資訊,忽略其他不重要的資訊。這種能力就叫做注意力。注意力可分為兩種 自上而下的有意識的注意力,稱為聚焦式注意力。主要討論 自下而上的無意識的注意力,稱為基於顯著性的注意力。在計算機視覺領域,注意力機...

計算機視覺中的注意力機制

計算機視覺中的注意力機制 attention 機制在近幾年來在影象,自然語言處理等領域中都取得了重要的突破,被證明有益於提高模型的效能。attention機制本身也是符合人腦和人眼的感知機制。attention 機制,便是聚焦於區域性資訊的機制,比如影象中的某乙個影象區域。隨著任務的變化,注意力區域...