達觀杯資料競賽 01

2021-09-11 17:38:08 字數 1006 閱讀 5165

比賽位址

這是乙個nlp型別的資料比賽,小白乙個,初步了解

學習目標:

2. 將訓練集拆分為訓練集和驗證集。要求:資料3-7分,隨機種子2019

3. 分享自己對資料以及賽題的理解和發現

首先匯入讀取資料和分割資料所需要用的python包

import pandas as pd

from sklearn.model_selection import train_test_split

資料分為兩個部分,乙個訓練集檔案,乙個測試集檔案,分別讀取

#讀取訓練集資料

#讀取測試集資料

完成資料集的劃分

#訓練樣本特徵集

data1_train_data = data1[['id','article','word_seg']]

#訓練樣本標籤

data1_train_target = data1['class']

x_train,x_test,y_train,y_test = train_test_split(data1_train_data,data1_train_target,test_size = 0.3,random_state = 2019)

達觀杯資料競賽系列(二)

1,tf idf tf idf term frequency inverse document frequency 是一種用於資訊檢索與資訊探勘的常用加權技術。tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加...

達觀杯文字智慧型處理(2)

tf idf是一種統計方法,用以評估一字詞對於乙個檔案集或乙個語料庫中的其中乙份檔案的重要程度。字詞的重要性隨著它在檔案 現的次數成正比增加,但同時會隨著它在語料庫 現的頻率成反比下降。tf idf加權的各種形式常被搜尋引擎應用,作為檔案與使用者查詢之間相關程度的度量或評級。tf idf有兩層意思,...

達觀杯文字處理任務

達觀杯文字處理任務 達觀杯文字處理小demo如下圖,訓練資料與測試資料有2g多,在pycharm裡執行demo時一直報錯process finished with exit code 1073740940 0xc0000374 解決辦法 配置檔案 邏輯回歸 from sklearn.linear m...