1、transformer
transformer是一種新的編碼器-解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。
2、attention
模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布施加在原來的特徵上,為後面任務如影象分類、影象識別等提供不同的特徵影響,使得任務主要關注一些重點特徵,忽略不重要特徵,提高任務效率。
1、給定一組向量集合values,以及乙個向量query,attention機制是一種根據該query計算values的加權求和的機制。
2、attention的重點就是這個集合values中的每個value的「權值」的計算方法。
3、有時候也把這種attention的機制叫做query的輸出關注了(或者說叫考慮到了)原文的不同部分。(query attends to the values)
零基礎入門NLP 新聞文字分類 方案整理
零基礎入門nlp 新聞文字分模擬賽方案分享 nano rank1 主要思路 零基礎入門nlp 新聞文字分模擬賽 top2參賽經驗 原始碼分享 主要思路 嘗試了nlp文字分類任務中常用的思路,並且給出了實驗中的一些總結,給我比較大的啟發的地方是 rnn網路,最大的亮點就是seq len使用了2000個...
零基礎入門NLP賽事 新聞文字分類記錄 task2
資料處理 train集合240m test集合60m 並不大直接用pandas讀入即可。可以看到資料格式如下,label列是新聞的類別,text列是新聞的字元。二者均為數值型。可以看成,還需要處理一下分隔符。應該改為 df train pd.read csv data train set.csv s...
新聞文字資料集 零基礎入門NLP 新聞文字分類
本文是對阿里雲新人競賽中的 零基礎入門nlp 新聞文字分類 解體過程進行的記錄,目前僅使用了textcnn模型進行 後續還會考慮使用lstm進行對比。賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字...