hierarchical attention networks for document classification **的理解
在**的摘要中,它提出了**的兩個特點。第乙個就是對應文章所有具有的分層結構,這個模型採取了相應的分層結構。這個文章的分層結構怎麼理解呢?
文章是具有分層結構的,單詞構成了句子,句子構成了文章。根據這個結構,han提出了在表示文章的時候,先是在第一層得到句子的表示,然後在第二層得到文章的表示。(這句話
可能有點費解,這個結構在第一層使用的是單詞向量,所以在第一層最後得到的就是乙個句子的表示結果,在第二層,我們輸入的是句子的表示向量,得到的第二層結果就是文章的表示向量)。
第二個特點就是這個模型在單詞和句子兩個層次上都應用了相應的attention原理。這個attention原理本質是提取出句子中重要單詞和文章中重要的句子。
所以這個機制對於文章內容的精確表示起到了很重要的特徵。
為什麼我們要根據這個文章的結構,而在han中使用相應的結構和attention原理呢?我們在想乙個**的創新點的時候,初衷一定是這個創新點能夠讓我們的神經網路結構可以在精準度上得到提公升。
那麼在han中使用和文章相對應的結構,一定是能夠對結果產生不錯的效果。我們從直覺上去感受一下這個創新的地方。從生活常識中,我們知道,如果在情感分類短文本任務中,乙個句子中
能夠表達情感觀點的就是最重要的那麼幾個詞,而不是整整一句話。那麼對於乙個文章,最重要的並不是全部的句子,而是就那麼幾個句子(不同文章可能數量不一樣)。
還有一點就是相同的單詞在不同的句子中肯定有著不同的意思,表現不同的情感。用的最多的乙個極端例子就是,蘋果這個詞,既可以是個水果,也可以是個品牌。
那麼相對應的我們可以想到,同乙個句子在不同文章中肯定也有不同的表現。
上面所說的,就是我們為什麼在han中,使用分層結構加上attention原理。總結就是說,分層結構,讓我們從本質上把握這個文章(從單詞出發,經過句子,最後來到全域性角度,也就是文章)。attention機制,是讓我們把握住句子中
重要的單詞和文章中重要的句子。這個機制會自動的讓神經網路依據單詞的上下文和文章的上下文,找到重要的單詞和重要的句子。
具體到han模型,可以看一下。
簡單講,它可以由四部分組成: 乙個處於單詞層面的編碼器,乙個處於單詞層面的attention層,乙個處於句子層面的編碼器,乙個處於句子層面的attention層。
對於編碼器來講,在這裡使用的是雙層gru
對於attention來說,假設我們文章有l個句子\(s_i\) ,而且每個句子包含有\(t_i\)個單詞。對於\(w_\)這個符號,它代表的是第i個句子中的第t個單詞,其中t的取值範圍是[1,t]
如何構建文件向量
盒模型理解
參考 盒模型理解 前端的盒模型包括兩種,分別是w3c盒模型和ie盒模型。w3c盒模型包括content padding border margin。其中width content ie盒模型包括content padding border margin。其中width content padding...
理解GloVe模型
輸入 語料庫 輸出 詞向量 方法概述 首先基於語料庫構建詞的共現矩陣,然後基於共現矩陣和glove模型學習詞向量。x,其元素為xi,jxi,j。x i,jxi,j 的意義為 在整個語料庫中,單詞i i和單詞j j共同出現在乙個視窗中的次數。舉個栗子 設有語料庫 中心詞視窗內容0i i love yo...
理解盒模型
div css有兩種盒模型 標準w3c盒模型 ie盒模型 如何讓瀏覽器能夠按標準盒模型來處理,就是在網頁的頂部加上doctype宣告。如果不加 doctype宣告,那麼各個瀏覽器會根據自己的行為去理解網頁。標準盒模型中width和height指的是內容區域的寬度和高度,增加內邊距 邊框和外邊距不會影...