賽題理解
賽題資料
學習目標
賽題思路
賽題的名稱:
零基礎入門nlp之新聞文字類
賽題的任務:
以nlp為背景,對新聞文字進行分類,及處理乙個典型的字元識別問題
賽題目標:
通過這道賽題可以引導大家走入自然語言處理的世界,帶大家接觸nlp的預處理、模型構建
和模型訓練等知識點。
資料構成
訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。
評測指標
評價標準為類別f1_score的均值,提交結果與實際測試集的類別進行對比,結果越大越好。
資料讀取
使用pandas庫完成資料讀取操作,並對賽題資料進行分析。
train_df = pd.read_table('./data/train.csv')
test_df = pd.read_table('./data/train.csv'
學習目標賽題思路該題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。因此本次賽題的難點是需要對匿名字元進行建模,進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料,因此可能涉及到特徵提取和分類模型兩個部分。主要思路有:
直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。
fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。
wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。
bert是高配款的詞向量,具有強大的建模學習能力。
NLP 文字表示
一 文字表示 文字表示 one hot 單詞 boolean representation 句子 count based representation 句子 詞典 我,要,去,北京,上海,南京 one hot 向量空間只有乙個維度是1,其餘都是0 缺點 高維度高稀疏 w1 我 1,0,0,0,0,0...
NLP 之文字表示
我們在做模型訓練的時候,不是直接把文字或者詞語傳給計算機讓其進行計算,而是需要將單詞 句子 文字轉換成向量或者矩陣進行計算,而如何將文字轉換成向量就是本文需要介紹的內容。介紹內容之前,大家需要先熟悉一些概念。詞庫 訓練資料 現的所有單詞,可以使用jieba分詞統計出來。混淆矩陣 混淆矩陣是資料科學 ...
NLP 文字分類思路
github部落格傳送門 csdn部落格傳送門 載入詞嵌入矩陣 一般情況為字典形式 載入任務資料 一般情況為字串形式 我喜歡程式設計 或者 i love play computer 對載入的所有任務資料求乙個最大字串長度 以便後面將所有資料填充至一樣的長度 將每條資料以每個樣本的形式存入列表 我在家...