4 5 Cifar10資料集解析

2022-03-19 08:35:02 字數 1223 閱讀 2403

import glob

import os

import numpy as np

import cv2

classification=[

'airplane',

'automobile',

'bird',

'cat',

'deer',

'dog',

'frog',

'horse',

'ship',

'truck']

def unpick(file):#這是cifar10官網提供的解壓函式

import pickle

with open(file,'rb') as fo:

dict=pickle.load(fo,encoding='bytes')

return dict

folders='/home/ubuntu/workplace/data_manager/data/cifar-10-batches-py'#cifar10源資料集

trfiles=glob.glob(folders+'/data_batch*')#獲取訓練樣本的位址

data=

labels=

for file in trfiles:#各小包解壓後資料存在data中,label存在labels中

dt=unpick(file)

data+=list(dt[b'data'])

labels+=list(dt[b'labels'])

print(labels)

#講資料轉換為4維度的資料(也就是直觀的),cifar中32*32

imgs=np.reshape(data,[-1,3,32,32])#-1代表自動獲取data的數量

for i in range(imgs.shape[0]):#shape[0]代表總量

im_data=imgs[i,...]

im_data=np.transpose(im_data,[1,2,0])#維度轉換應為opencv非通道優先順序儲存

im_data=cv2.cvtcolor(im_data,cv2.color_rgb2bgr)#cv非rgb格式

if not os.path.exists(f):#判斷路徑是否存在

SCIERC資料集解析

官方資料集位址 multi task identification of entities,relations,and coreference for scientific knowledge graph construction 七種關係型別 一條資料集包含 clusters 共指集群 6 11 ...

cifar10資料的讀取

cifar10資料集檔案結構如圖所示,其中data batch 1 5.bin是訓練集,每個檔案包含10000個樣本,test batch.bin是測試集,包含10000個樣本。開啟任意乙個檔案,發現是一堆二進位制資料,其中乙個樣本由3037個位元組組成,其中第乙個位元組是label,剩餘3036 ...

資料集處理 CIFAR10

transform transforms.compose transforms.totensor transforms.normalize 0.5,0.5,0.5 0.5,0.5,0.5 trainset torchvision.datasets.cifar10 root cifar10 train...