資料集預處理,劃分為測試資料集合驗證資料集

2021-07-25 14:54:00 字數 2506 閱讀 8694

在乙個資料集中隨機選出80%的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20%的記錄作為驗證,測試模型的準確性。

原有資料集形式:

1::1193::5::978300760

1::661::3::978302109

1::914::3::978301968

1::3408::4::978300275

1::2355::5::978824291

1::1197::3::978302268

1::1287::5::978302039

1::2804::5::978300719

1::594::4::978302268

1::919::4::978301368

… …

其中[0]-[3]分別代表不同的特徵

處理後得到的資料集

3418 869 4 967398834

1545 1073 3 974744490

2851 2572 5 972506781

2068 1198 3 974658346

1031 3633 4 974999133

5555 1073 3 959550355

587 3566 1 975946900

1125 3301 2 988697984

4091 1772 1 965425356

2096 3114 5 974653564

5888 1220 5 957480240

710 93 2 975570015

… …

python**如下:

import random

defreplaced

(filename):

new_content=;

readfile=open(filename)

lines=readfile.readlines()

for line in lines:

new_line=line.strip().replace("::","\t")

'''contents=line.split("::")

new_line=contents[0].strip()+"\t"+contents[1].strip()+"\t"+contents[2].strip()+"\t"+contents[3].strip()

'''#print contents

#print new_content

readfile.close()

writefile=open(filename.strip(".csv")+"_replaced.csv",'wb')

for i in range(len(new_content)):

writefile.write(new_content[i]+'\n')

writefile.close()

defchoose

(filename):

content_test=

content_result=

readfile=open(filename)

lines=readfile.readlines()

sum_length=len(lines)

count=sum_length

print("the numbers of items in "+filename+" is "+str(sum_length))

while count > 0:

if len(content_test)<0.8*sum_length:

i=random.randint(0,count-1)

del lines[i]

count=count-1

for j in range(len(lines)):

readfile.close()

writefile=open("content_test.csv",'wb')

for i in range(len(content_test)):

writefile.write(content_test[i])

writefile.close()

writefile=open("content_result.csv",'wb')

for i in range(len(content_result)):

writefile.write(content_result[i])

writefile.close()

filename="ratings.csv"

choose(filename)

filename_01="content_test.csv"

filename_02="content_result.csv"

replaced(filename_01)

replaced(filename_02)

資料集預處理 劃分測試資料集合

野子電競資料官網改版全新登場 在乙個資料集中隨機選出80 的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20 的記錄作為驗證,測試模型的準確性。原有資料集形式 1 1193 5 978300760 1 661 3 978302109 1 914 3 978301968 1 3408 4 ...

將資料集劃分為訓練集以及測試集

將資料集簡單地劃分為測試集以及訓練集 import os import random train percent 9 訓練集所佔比例 valid percent 0.1 測試集所佔比例 xmlfilepath data delete 所在地相對路徑 total file os.listdir xml...

ABIDE資料集預處理專案

4 github專案 專案 preprocessed connectomes project pcp 專案從autism brain imaging data exchange abide 公眾發布和開放共享預處理神經影像資料。由國際神經影像資料共享倡議組織 indi 組成的聯盟是由16個國際影像站...