NLP文字挖掘

賽題理解賽題資料學習目標賽題思路

賽題的名稱：

零基礎入門nlp之新聞文字類

賽題的任務：

以nlp為背景，對新聞文字進行分類，及處理乙個典型的字元識別問題

賽題目標：

通過這道賽題可以引導大家走入自然語言處理的世界，帶大家接觸nlp的預處理、模型構建

和模型訓練等知識點。

資料構成

訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。

評測指標

評價標準為類別f1_score的均值，提交結果與實際測試集的類別進行對比，結果越大越好。

資料讀取

使用pandas庫完成資料讀取操作，並對賽題資料進行分析。

train_df = pd.read_table('./data/train.csv')
test_df = pd.read_table('./data/train.csv'

學習目標賽題思路該題本質是乙個文字分類問題，需要根據每句的字元進行分類。但賽題給出的資料是匿名化的，不能直接使用中文分詞等操作，這個是賽題的難點。因此本次賽題的難點是需要對匿名字元進行建模，進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料，因此可能涉及到特徵提取和分類模型兩個部分。主要思路有：

直接使用tf-idf對文字提取特徵，並使用分類器進行分類。在分類器的選擇上，可以使用svm、lr、或者xgboost。

fasttext是入門款的詞向量，利用facebook提供的fasttext工具，可以快速構建出分類器。

wordvec是高階款的詞向量，並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

bert是高配款的詞向量，具有強大的建模學習能力。

NLP 文字表示

一文字表示文字表示 one hot 單詞 boolean representation 句子 count based representation 句子詞典我，要，去，北京，上海，南京 one hot 向量空間只有乙個維度是1，其餘都是0 缺點高維度高稀疏 w1 我 1,0,0,0,0,0...

NLP 之文字表示

我們在做模型訓練的時候，不是直接把文字或者詞語傳給計算機讓其進行計算，而是需要將單詞句子文字轉換成向量或者矩陣進行計算，而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前，大家需要先熟悉一些概念。詞庫訓練資料現的所有單詞，可以使用jieba分詞統計出來。混淆矩陣混淆矩陣是資料科學 ...

NLP 文字分類思路

github部落格傳送門 csdn部落格傳送門載入詞嵌入矩陣一般情況為字典形式載入任務資料一般情況為字串形式我喜歡程式設計或者 i love play computer 對載入的所有任務資料求乙個最大字串長度以便後面將所有資料填充至一樣的長度將每條資料以每個樣本的形式存入列表我在家...

NLP文字挖掘

NLP 文字表示

NLP 之文字表示

NLP 文字分類思路

相關推薦