python劃分訓練集和驗證集

2021-09-29 21:23:37 字數 1142 閱讀 7941

使用keras訓練模型時,我們需要將分為訓練集和驗證集,下面是使用python實現的劃分資料集的**

import os

import random

import shutil

from shutil import copy2

dir_name = os.listdir("./data")

def mk_dir():

#mkdir()--建立一級目錄 makedirs()--建立多級目錄

for name in dir_name:

os.makedirs('./train/' + name)

for name in dir_name:

os.makedirs('./val/' + name)

def move_file():

for name in dir_name:

trainfiles = os.listdir('./data/' + name + '/')#資料夾

num_train = len(trainfiles)

print( "num_train: " + str(num_train) )

index_list = list(range(num_train))

print(index_list)

random.shuffle(index_list)

num = 0

traindir = './train/' + name + '/'#將資料夾中的7份放在這個資料夾下)

validdir = './val/' + name + '/'#將資料夾中的3份放在這個資料夾

for i in index_list:

filename = './data/' + name + '/' + trainfiles[i]

if num < num_train*0.7:

print(str(filename))

copy2(filename, traindir)

else:

copy2(filename, validdir)

num += 1

if __name__ == "__main__":

mk_dir()

move_file()

訓練集,測試集和驗證集劃分的意義

訓練集 驗證集和測試集的意義 有了模型後,訓練集就是用來訓練引數的,說準確點,一般是用來梯度下降的。而驗證集基本是在每個epoch完成後,用來測試一下當前模型的準確率。因為驗證集跟訓練集沒有交集,因此這個準確率是可靠的。那麼為啥還需要乙個測試集呢?這就需要區分一下模型的各種引數了。事實上,對於乙個模...

訓練集 驗證集和測試集

訓練集 驗證集和測試集這三個名詞在機器學習領域極其常見,但很多人並不是特別清楚,尤其是後兩個經常被人混用。在有監督 supervise 的機器學習中,資料集常被分成2 3個,即 訓練集 train set 驗證集 validation set 測試集 test set ripley,b.d 1996...

訓練集 驗證集和測試集

驗證集既不能通過直接將泛化誤差作為了解模型泛化能力的訊號,因為在部署環境和訓練模型之間往復,代價很高,也不能使用模型對訓練資料集的擬合程度來作為了解模型泛化能力的訊號,因為我們獲得的資料往往不乾淨。更好的方式就是將資料分割成兩部分 訓練集和測試集。我們可以使用訓練集的資料來訓練模型,然後用測試集上的...