import glob
import os
import numpy as np
import cv2
classification=[
'airplane',
'automobile',
'bird',
'cat',
'deer',
'dog',
'frog',
'horse',
'ship',
'truck']
def unpick(file):#這是cifar10官網提供的解壓函式
import pickle
with open(file,'rb') as fo:
dict=pickle.load(fo,encoding='bytes')
return dict
folders='/home/ubuntu/workplace/data_manager/data/cifar-10-batches-py'#cifar10源資料集
trfiles=glob.glob(folders+'/data_batch*')#獲取訓練樣本的位址
data=
labels=
for file in trfiles:#各小包解壓後資料存在data中,label存在labels中
dt=unpick(file)
data+=list(dt[b'data'])
labels+=list(dt[b'labels'])
print(labels)
#講資料轉換為4維度的資料(也就是直觀的),cifar中32*32
imgs=np.reshape(data,[-1,3,32,32])#-1代表自動獲取data的數量
for i in range(imgs.shape[0]):#shape[0]代表總量
im_data=imgs[i,...]
im_data=np.transpose(im_data,[1,2,0])#維度轉換應為opencv非通道優先順序儲存
im_data=cv2.cvtcolor(im_data,cv2.color_rgb2bgr)#cv非rgb格式
if not os.path.exists(f):#判斷路徑是否存在
SCIERC資料集解析
官方資料集位址 multi task identification of entities,relations,and coreference for scientific knowledge graph construction 七種關係型別 一條資料集包含 clusters 共指集群 6 11 ...
cifar10資料的讀取
cifar10資料集檔案結構如圖所示,其中data batch 1 5.bin是訓練集,每個檔案包含10000個樣本,test batch.bin是測試集,包含10000個樣本。開啟任意乙個檔案,發現是一堆二進位制資料,其中乙個樣本由3037個位元組組成,其中第乙個位元組是label,剩餘3036 ...
資料集處理 CIFAR10
transform transforms.compose transforms.totensor transforms.normalize 0.5,0.5,0.5 0.5,0.5,0.5 trainset torchvision.datasets.cifar10 root cifar10 train...