在乙個資料集中隨機選出80%的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20%的記錄作為驗證,測試模型的準確性。
原有資料集形式:
1::1193::5::978300760其中[0]-[3]分別代表不同的特徵1::661::3::978302109
1::914::3::978301968
1::3408::4::978300275
1::2355::5::978824291
1::1197::3::978302268
1::1287::5::978302039
1::2804::5::978300719
1::594::4::978302268
1::919::4::978301368
… …
…
處理後得到的資料集
3418 869 4 967398834python**如下:1545 1073 3 974744490
2851 2572 5 972506781
2068 1198 3 974658346
1031 3633 4 974999133
5555 1073 3 959550355
587 3566 1 975946900
1125 3301 2 988697984
4091 1772 1 965425356
2096 3114 5 974653564
5888 1220 5 957480240
710 93 2 975570015
… …
…
import random
defreplaced
(filename):
new_content=;
readfile=open(filename)
lines=readfile.readlines()
for line in lines:
new_line=line.strip().replace("::","\t")
'''contents=line.split("::")
new_line=contents[0].strip()+"\t"+contents[1].strip()+"\t"+contents[2].strip()+"\t"+contents[3].strip()
'''#print contents
#print new_content
readfile.close()
writefile=open(filename.strip(".csv")+"_replaced.csv",'wb')
for i in range(len(new_content)):
writefile.write(new_content[i]+'\n')
writefile.close()
defchoose
(filename):
content_test=
content_result=
readfile=open(filename)
lines=readfile.readlines()
sum_length=len(lines)
count=sum_length
print("the numbers of items in "+filename+" is "+str(sum_length))
while count > 0:
if len(content_test)<0.8*sum_length:
i=random.randint(0,count-1)
del lines[i]
count=count-1
for j in range(len(lines)):
readfile.close()
writefile=open("content_test.csv",'wb')
for i in range(len(content_test)):
writefile.write(content_test[i])
writefile.close()
writefile=open("content_result.csv",'wb')
for i in range(len(content_result)):
writefile.write(content_result[i])
writefile.close()
filename="ratings.csv"
choose(filename)
filename_01="content_test.csv"
filename_02="content_result.csv"
replaced(filename_01)
replaced(filename_02)
資料集預處理 劃分測試資料集合
野子電競資料官網改版全新登場 在乙個資料集中隨機選出80 的記錄作為訓練資料集,訓練得到相應的數學模型之後,將剩餘的20 的記錄作為驗證,測試模型的準確性。原有資料集形式 1 1193 5 978300760 1 661 3 978302109 1 914 3 978301968 1 3408 4 ...
將資料集劃分為訓練集以及測試集
將資料集簡單地劃分為測試集以及訓練集 import os import random train percent 9 訓練集所佔比例 valid percent 0.1 測試集所佔比例 xmlfilepath data delete 所在地相對路徑 total file os.listdir xml...
ABIDE資料集預處理專案
4 github專案 專案 preprocessed connectomes project pcp 專案從autism brain imaging data exchange abide 公眾發布和開放共享預處理神經影像資料。由國際神經影像資料共享倡議組織 indi 組成的聯盟是由16個國際影像站...