學習目標
將有限的注意力集中在重要的資訊上,從而節省資源,快速獲取最有效的資訊。這就是簡單的attention is all you need。
個人理解:
有個圖書館(source),裡面有很多的書籍,為了方便管理我們給他們做了標籤,形成(標籤,書籍)–>(k,v)這種方式,當我們需要了解某個資訊,比如北京大學(query),我們需要從書籍中選取相關性比較高的來閱讀理解,如北京大學的建校歷史等,想關性比較低的可以稍稍過一遍,比如中國名校。這樣權重高的資訊得到較高的關注度。
階段1:query和key進行相似度計算
階段2:將權值歸一化,得到可用的權重
階段3:將權重和value進行加權求和
接下來是相似度計算的幾個計算方式解釋如下圖:
這就是注意力機制的個人理解,對資訊加以提取綱要,下一步的transformer的就是融匯貫通。
transformer中的attention是self-attention,self-attention跟attention的主要區別是三個引數q、k、v都是通過輸入語句,就是自己來轉換得到的。
bert是乙個預訓練語言模型,bert是乙個考慮上下文(雙向)的模型,為了適配多工下的遷移學習,bert設計了更通用的輸入層和輸出層。
bert的輸入可以是單一的乙個句子或者是句子對,實際的輸入值是segment embedding與position embedding相加。
bert的輸入詞向量是三個向量之和:
token embedding:wordpiece tokenization subword詞向量。
segment embedding:表明這個詞屬於哪個句子(nsp需要兩個句子)。
position embedding:學習出來的embedding向量。這與transformer不同,transformer中是預先設定好的值。
bert的三個階段:
Task4基於深度學習的文字分類
fasttext是一種典型dl詞向量的表示方法,它通過embedding層將單詞對映到稠密空間,然後將句子中所有的單詞在embedding空間中進行平均,進而完成分類操作 它是乙個三層神經網路 輸入層 隱含層 輸出層 它用單詞的embedding疊加獲得的文件向量,將相似的句子分為一類 它學到的em...
NLP入門 新聞文字分類Task5
textcnn textrnn 上乙個task4利用了fasttext,但不是最優的思路方法,因此本章將繼續學習基於深度學習的文字分類。基於詞的上下文環境進行 對於每一條輸入文字,選取一定大小的視窗的上下文和乙個中心詞,並基於這個中心詞去 視窗內其他詞出現的概率。通過單詞和上下文彼此 基礎 yoon...
新聞文字分類問題
新聞文字分類問題是典型的字元識別問題。賽題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作 因此本次賽題的難點是需要對匿名字元進行建模,進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料,因此可能涉及到特徵提取和分類模型兩個部分。思...