Task1 零基礎入門NLP之新聞文字分類

2021-10-08 07:37:29 字數 525 閱讀 2109

天池對應比賽:

賽題以自然語言處理為背景,要求選手對新聞文字進行分類,這是乙個典型的字元識別問題,通過這道賽題可以引導我們走入自然語言處理的世界,帶我們接觸nlp的預處理、模型構建和模型訓練等知識點。

對賽題進行初步的認識和了解

賽題資料由以下幾個部分構成:訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。

在資料集中標籤的對應的關係如下:

評價標準為類別f1_score的均值,選手提交結果與實際測試集的類別進行對比,結果越大越好。

利用python的pandas庫

新增鏈結描述

新增鏈結描述

新增鏈結描述

新增鏈結描述

先對資料有初步的認識,讓我們能有大概的了解。

對提供的四種方法進行系統的學習 選擇一種適合自己的

零基礎入門資料探勘 Task1 賽題理解

賽題 零基礎入門資料探勘 二手車交易 比賽要求參賽選手根據給定的資料集,建立模型,最終 二手汽車的交易 資料來自ebay kleinanzeigen報廢的二手車,數量超過 370,000,包含 20 列變數資訊,為了保證 比賽的公平性,將會從中抽取 10 萬條作為訓練集,5 萬條作為測試集 a,5 ...

零基礎入門CV賽事 Task1 賽題理解

賽題名稱 零基礎入門cv之街道字元識別 賽題目標 通過這道賽題可以引導大家走入計算機視覺的世界,主要針對競賽選手上手視覺賽題,提高對資料建模能力。賽題任務 賽題以計算機視覺中字元識別為背景,要求選手 街道字元編碼,這是乙個典型的字元識別問題。為了簡化賽題難度,賽題資料採用公開資料集svhn,因此大家...

零基礎入門CV賽事 Task1 賽題理解

賽題目標 通過這道賽題可以引導大家走入計算機視覺的世界,主要針對競賽選手上手視覺賽題,提高對資料建模能力。賽題任務 賽題以計算機視覺中字元識別為背景,要求選手 街道字元編碼,這是乙個典型的字元識別問題。import json train json json.load open r d study c...