NLP學習 Task 1 賽題理解筆記

2021-10-08 08:04:27 字數 671 閱讀 7003

內容主要來自:datawhale_github

簡介:新聞文字理解,賽題資料理解,解題思路

賽題名稱:零基礎入門nlp之新聞文字分類

目標:預處理,模型構建,模型訓練。對新聞文字分類(字元識別)。

賽題資料:按照字元級別進行匿名處理的新聞文字資料,14個類。

構成部分:訓練集(20w樣本),測試集a(5w樣本),測試集b(5w樣本)

資料標籤:label 0-13,text

評測指標:類別 f1_score 的均值

資料讀取:使用 pandas 庫讀取

解題思路:文字分類,需要根據每句的字元進行分類。難點是資料匿名化,不能直接使用中文分詞等操作,需要建模。

b)思路2:fasttext

fasttext是入門級的詞向量,利用facebook提供的fasttext工具,可以快速構建出分類器。

c)思路3:wordvec + 深度學習分類器

wordvec是高階的詞向量,並且通過深度學習分類。深度學習分類的網路結構可以選擇textcnn、textrnn或bilstm。

d)思路4:bert詞向量

bert是高配版詞向量,具有強大的建模學習能力。

總結:之前沒有接觸過nlp,對這方面的網路和研究方法沒有了解,目前只是粗略看了下這些方法的原理,還不是特別明白,在後面具體實踐中希望能夠加深理解吧。

NLP賽事 Task1 賽題理解

賽題理解 賽題資料 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。資料標籤 在資料集中標籤的對應的關係如下 評測指標 評價標準為類別f1 score的均值,選手提交結果...

nlp入門賽task1 賽題理解

賽題名稱 資料集 賽題資料由以下幾個部分構成 訓練集20w條樣本,測試集a包括5w條樣本,測試集b包括5w條樣本。為了預防選手人工標註測試集的情況,我們將比賽資料的文字按照字元級別進行了匿名處理。資料標籤 處理後的賽題訓練資料如下 在資料集中標籤的對應的關係如下 評價標準為類別f1 score的均值...

Task1 賽題理解

賽題是cv入門級賽題,通過街景字元識別來熟悉cv建模思路和競賽流程。目標為識別街景中的字元。資料集樣本展示如下 評價指標如下 主要考慮兩種思路 傳統cv思路 先將影象二值化處理,然後做傾斜校正,根據投影做字元切割,根據0 9的字元的特徵點與標準字元匹配來進行識別 深度學習思路 本題本質上是分類問題,...