演算法第一步 資料集分割

2021-10-09 10:53:05 字數 1034 閱讀 6543

import random

import numpy as np

data = pd.read_csv("./datann.csv",error_bad_lines=false)

data = np.array(data)

# 這裡np資料一定要用np.random.shuffle,不要用random帶的shuffle,它不適用與shuffle

np.random.shuffle(data)#隨機打亂,

#取前90%為訓練集

alldata = [d[0] for d in data]

df1=data[:int(0.9*len(alldata))]

#將np.array轉為dataframe,並加上原資料集中的列名

df1=pd.dataframe(df1,columns=['url','label', 'sent', 'title'])

#寫入csv

df1.to_csv("./train.csv",index=false)

#剩餘百分之10為測試集

df2=data[int(0.1*len(alldata)):]

df2=pd.dataframe(df2,columns=['url','label','sent', 'title'])

df2.to_csv("./test.csv",index=false)

from sklearn.model_selection import train_test_split

# x為資料,y為標籤,返回四個值

xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3,random_state=420)

# 切分前資料標籤的分布情況

train_data.seriousdlqin2yrs.value_counts()

#切分後,訓練集資料標籤的分布情況

pd.series(ytrain).value_counts()

踏出第一步

我是乙個比較內向的人,或許應該說有一點自卑的傾向。因為生活中的一些事情,總是不斷的打擊我的自信心,讓我產生一種感覺 我缺乏能力,是乙個無用的人。我想有過這種經歷的,肯定不只我乙個人。人的信心有時候是很脆弱的,兩三次的失敗就可能讓其消失殆盡,然後你就覺得,反正我也做不出什麼事情來,乾脆就這樣混著吧,於...

邁出第一步

我,乙個程式小白,不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年,期間,自己有為找不出那乙個個errors煩躁,也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀,想去提公升自己,想不負剩餘的兩年時光,不負你,不負我!對於今後的學習之路的想法,首先基礎的語言學習,其次資料結...

爬蟲第一步

注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...