NLP文字挖掘

2021-10-08 07:47:50 字數 1099 閱讀 1686

賽題理解

賽題資料

學習目標

賽題思路

賽題的名稱:

零基礎入門nlp之新聞文字類

賽題的任務:

以nlp為背景,對新聞文字進行分類,及處理乙個典型的字元識別問題

賽題目標:

通過這道賽題可以引導大家走入自然語言處理的世界,帶大家接觸nlp的預處理、模型構建

和模型訓練等知識點。

資料構成

訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。

評測指標

評價標準為類別f1_score的均值,提交結果與實際測試集的類別進行對比,結果越大越好。

資料讀取

使用pandas庫完成資料讀取操作,並對賽題資料進行分析。

train_df = pd.read_table('./data/train.csv')

test_df = pd.read_table('./data/train.csv'

學習目標賽題思路該題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。因此本次賽題的難點是需要對匿名字元進行建模,進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料,因此可能涉及到特徵提取和分類模型兩個部分。主要思路有:

直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。

fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。

wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。

bert是高配款的詞向量,具有強大的建模學習能力。

NLP 文字表示

一 文字表示 文字表示 one hot 單詞 boolean representation 句子 count based representation 句子 詞典 我,要,去,北京,上海,南京 one hot 向量空間只有乙個維度是1,其餘都是0 缺點 高維度高稀疏 w1 我 1,0,0,0,0,0...

NLP 之文字表示

我們在做模型訓練的時候,不是直接把文字或者詞語傳給計算機讓其進行計算,而是需要將單詞 句子 文字轉換成向量或者矩陣進行計算,而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前,大家需要先熟悉一些概念。詞庫 訓練資料 現的所有單詞,可以使用jieba分詞統計出來。混淆矩陣 混淆矩陣是資料科學 ...

NLP 文字分類思路

github部落格傳送門 csdn部落格傳送門 載入詞嵌入矩陣 一般情況為字典形式 載入任務資料 一般情況為字串形式 我喜歡程式設計 或者 i love play computer 對載入的所有任務資料求乙個最大字串長度 以便後面將所有資料填充至一樣的長度 將每條資料以每個樣本的形式存入列表 我在家...