import random
import numpy as np
data = pd.read_csv("./datann.csv",error_bad_lines=false)
data = np.array(data)
# 這裡np資料一定要用np.random.shuffle,不要用random帶的shuffle,它不適用與shuffle
np.random.shuffle(data)#隨機打亂,
#取前90%為訓練集
alldata = [d[0] for d in data]
df1=data[:int(0.9*len(alldata))]
#將np.array轉為dataframe,並加上原資料集中的列名
df1=pd.dataframe(df1,columns=['url','label', 'sent', 'title'])
#寫入csv
df1.to_csv("./train.csv",index=false)
#剩餘百分之10為測試集
df2=data[int(0.1*len(alldata)):]
df2=pd.dataframe(df2,columns=['url','label','sent', 'title'])
df2.to_csv("./test.csv",index=false)
from sklearn.model_selection import train_test_split
# x為資料,y為標籤,返回四個值
xtrain,xtest,ytrain,ytest = train_test_split(x,y,test_size=0.3,random_state=420)
# 切分前資料標籤的分布情況
train_data.seriousdlqin2yrs.value_counts()
#切分後,訓練集資料標籤的分布情況
pd.series(ytrain).value_counts()
踏出第一步
我是乙個比較內向的人,或許應該說有一點自卑的傾向。因為生活中的一些事情,總是不斷的打擊我的自信心,讓我產生一種感覺 我缺乏能力,是乙個無用的人。我想有過這種經歷的,肯定不只我乙個人。人的信心有時候是很脆弱的,兩三次的失敗就可能讓其消失殆盡,然後你就覺得,反正我也做不出什麼事情來,乾脆就這樣混著吧,於...
邁出第一步
我,乙個程式小白,不是為了熱愛而走上程式設計之路。就這樣稀里糊塗的度過了兩年,期間,自己有為找不出那乙個個errors煩躁,也有為成功編譯後而獲得正確結果的那種喜悅。如今是真的想去改變現狀,想去提公升自己,想不負剩餘的兩年時光,不負你,不負我!對於今後的學習之路的想法,首先基礎的語言學習,其次資料結...
爬蟲第一步
注意正規表示式的書寫注意正規表示式的書寫 import re import requests url headers html requests.get url,headers,timeout 10 text print html redata re.compile r for i in re.fi...