Task1 天池新聞文字賽題分類理解

阿里天池新聞文字分類理解

本次新人賽是datawhale與天池聯合發起的0基礎入門系列賽事第三場 —— 零基礎入門nlp之新聞文字分類挑戰賽。

賽題以自然語言處理為背景，要求選手根據新聞文字字元對新聞的類別進行分類，這是乙個經典文字分類問題。通過這道賽題可以引導大家走入自然語言處理的世界，帶大家接觸nlp的預處理、模型構建和模型訓練等知識點。

先來看看資料集的樣子

(資料集展示)

（資料集的資訊）

本次資料中訓練集總共有20000條資料，測試集50000條資料，標籤如下

評價標準為類別f1_score的均值，選手提交結果與實際測試集的類別進行對比，結果越大越好。

未來思路：採用fasttext或word2vec進行處理

Task1 賽題理解

賽題是cv入門級賽題，通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下評價指標如下主要考慮兩種思路傳統cv思路先將影象二值化處理，然後做傾斜校正，根據投影做字元切割，根據0 9的字元的特徵點與標準字元匹配來進行識別深度學習思路本題本質上是分類問題，...

Task1 賽題理解

鏈結賽題資料由以下幾個部分構成訓練集20w條樣本，測試集a包括5w條樣本，測試集b包括5w條樣本。為了預防選手人工標註測試集的情況，我們將比賽資料的文字按照字元級別進行了匿名處理。在資料集中標籤的對應的關係如下評價標準為類別f1 score的均值，選手提交結果與實際測試集的類別進行對比，結果越...

Task1 賽題理解

1.賽題資料import pandas as pd import numpy as nptrain pd.read csv train.csv testa pd.read csv testa.csv print train data shape train.shape print testa dat...

Task1 天池新聞文字賽題分類理解

Task1 賽題理解

Task1 賽題理解

Task1 賽題理解

相關推薦