賽題理解¶
賽題資料
賽題資料由以下幾個部分構成:訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。
資料標籤
在資料集中標籤的對應的關係如下:
評測指標
評價標準為類別f1_score的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。
解題思路
賽題思路分析:賽題本質是乙個文字分類問題,需要根據每句的字元進行分類。但賽題給出的資料是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。
因此本次賽題的難點是需要對匿名字元進行建模,進而完成文字分類的過程。由於文字資料是一種典型的非結構化資料,因此可能涉及到特徵提取和分類模型兩個部分。
思路1:tf-idf + 機器學習分類器
直接使用tf-idf對文字提取特徵,並使用分類器進行分類。在分類器的選擇上,可以使用svm、lr、或者xgboost。
思路2:fasttext
fasttext是入門款的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。
思路3:wordvec + 深度學習分類器
wordvec是高階款的詞向量,並通過構建深度學習分類完成分類。深度學習分類的網路結構可以選擇textcnn、textrnn或者bilstm。
思路4:bert詞向量
bert是高配款的詞向量,具有強大的建模學習能力。
nlp入門賽task1 賽題理解
賽題名稱 資料集 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。資料標籤 處理後的賽題訓練資料如下 在資料集中標籤的對應的關係如下 評價標準為類別f1 score的均值...
NLP學習 Task 1 賽題理解筆記
內容主要來自 datawhale github 簡介 新聞文字理解,賽題資料理解,解題思路 賽題名稱 零基礎入門nlp之新聞文字分類 目標 預處理,模型構建,模型訓練。對新聞文字分類 字元識別 賽題資料 按照字元級別進行匿名處理的新聞文字資料,14個類。構成部分 訓練集 20w樣本 測試集a 5w樣...
Task1 賽題理解
賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...