新聞文字分類問題

2021-10-08 09:19:06 字數 506 閱讀 4356

新聞文字分類問題是典型的字元識別問題。

賽題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作

因此本次賽題的難點是需要對匿名字元進行建模,進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料,因此可能涉及到特徵提取和分類模型兩個部分。

思路1:tf-idf + 機器學習分類器

直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。

思路2:fasttext

fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。

思路3:wordvec + 深度學習分類器

wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

思路4:bert詞向量

bert是高配款的詞向量,具有強大的建模學習能力。

NLP入門 新聞文字分類Task5

textcnn textrnn 上乙個task4利用了fasttext,但不是最優的思路方法,因此本章將繼續學習基於深度學習的文字分類。基於詞的上下文環境進行 對於每一條輸入文字,選取一定大小的視窗的上下文和乙個中心詞,並基於這個中心詞去 視窗內其他詞出現的概率。通過單詞和上下文彼此 基礎 yoon...

零基礎入門NLP 新聞文字分類

1 transformer transformer是一種新的編碼器 解碼器架構,它僅使用注意力機制而不是rnn來編碼每個位置,並關聯有關其自身的輸入和輸出的兩個遠端單詞,然後可以並行化處理,因而加快訓練。2 attention 模仿人類視覺注意力機制,學習出乙個對影象特徵的權重分布,再把這個權重分布...

文字分類 libsvm

關於 libsvm 的介紹以及相關 網上很多,感興趣可以找找。這是libsvm 這裡主要是針對之前學習過的幾種特徵篩選演算法用 libsvm 進行比較。採用搜狗實驗室的資料,選擇商業類文字 1001 篇,娛樂類文字 1208 篇,測試集 29904 篇。分別採用文件頻次,卡方分布,互資訊,資訊增益來...