Task1 天池新聞文字賽題分類理解

2021-10-08 09:17:01 字數 592 閱讀 6808

阿里天池新聞文字分類理解

本次新人賽是datawhale與天池聯合發起的0基礎入門系列賽事第三場 —— 零基礎入門nlp之新聞文字分類挑戰賽。

賽題以自然語言處理為背景,要求選手根據新聞文字字元對新聞的類別進行分類,這是乙個經典文字分類問題。通過這道賽題可以引導大家走入自然語言處理的世界,帶大家接觸nlp的預處理、模型構建和模型訓練等知識點。

先來看看資料集的樣子

(資料集展示)

(資料集的資訊)

本次資料中訓練集總共有20000條資料,測試集50000條資料,標籤如下

評價標準為類別f1_score的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。

未來思路:採用fasttext或word2vec進行處理

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...

Task1 賽題理解

鏈結 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。在資料集中標籤的對應的關係如下 評價標準為類別f1 score的均值,選手提交結果與實際測試集的類別進行對比,結果越...

Task1 賽題理解

1.賽題資料import pandas as pd import numpy as nptrain pd.read csv train.csv testa pd.read csv testa.csv print train data shape train.shape print testa dat...