資料處理
train集合240m+,test集合60m+,並不大直接用pandas讀入即可。可以看到資料格式如下,label列是新聞的類別,text列是新聞的字元。二者均為數值型。
可以看成,還需要處理一下分隔符。應該改為:
df_train = pd.read_csv("./data/train_set.csv",sep='\t')
那麼接下來,我們應該對資料的分布有所分析。比如文字長度分布,資料類別分布,字元分布情況。
文字長度分布(即句子長度)如下,平均乙個句子907個字元,最長57921字,大部分長度在2000以內。
新聞類別分布:可見存在類別分布不均的問題,科技類新聞樣本最多,星座類最少。
將所有句子進行拼接然後劃分字元,統計每個字元的個數。可以檢視出總共6869個字,編號3750的字出現的次數最多,編號3133的字出現最少。
from collections import counter
all_l = ' '.join(list(df_train['text']))
word_c = counter(all_l.split(" "))
word_c =sorted(word_c.items(),key=lambda d:d[1], reverse =true)
零基礎入門NLP 新聞文字分類
1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...
新聞文字資料集 零基礎入門NLP 新聞文字分類
本文是對阿里雲新人競賽中的 零基礎入門nlp 新聞文字分類 解體過程進行的記錄,目前僅使用了textcnn模型進行 後續還會考慮使用lstm進行對比。賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字...
零基礎入門NLP 新聞文字分類 方案整理
零基礎入門nlp 新聞文字分模擬賽方案分享 nano rank1 主要思路 零基礎入門nlp 新聞文字分模擬賽 top2參賽經驗 原始碼分享 主要思路 嘗試了nlp文字分類任務中常用的思路,並且給出了實驗中的一些總結,給我比較大的啟發的地方是 rnn網路,最大的亮點就是seq len使用了2000個...