如何處理svhn資料集的mat檔案

2021-10-02 10:52:08 字數 1102 閱讀 2063

碰到的問題

參考文件

mat格式的檔案是matlab的資料儲存標準格式。根據網上的教程,我首先用scipy庫處理mat檔案

import scipy.io as scio

data = scio.loadmat(r"d:\datasets\svt\train\digitstruct.mat"

)data.keys(

)

結果報了錯please use hdf reader for matlab v7.3 files

改用h5py檔案後,首先需要知道.mat檔案的結構。

h5py所處理的是hdf5檔案,在處理.mat檔案時可以把.mat檔案當作hdf5檔案。hdf5檔案是乙個容器,用於儲存兩類物件,datasets和group,可以把datasets理解為numpy中的陣列(array),把group理解為字典(dictionaries)

首先用h5py開啟檔案,用data.keys()檢視字典中的keys

import h5py

data = h5py.file(path,

'r')

print

(data.keys(

))

執行結果如下

我們所需的資訊在digitstruct中,digitstruct仍是乙個group,包含兩個資料

分別問bboxname

array_data = data[

'digitstruct'

]print

(array_data.keys(

))

bbox中是的bbox資訊和label,name中是的名字待續

[1]. h5py快速入門指南

[2]. h5py,在svhn中訪問資料集中的資料

如何處理乙個文字資料集

目前有大量的資料集,但是不一定每個資料集對於你來說是一上手就可以使用的。而資料預處理對於乙個文字分類的結果來說,是非常重要的。目前我記錄一下我的資料預處理的一些方式 文字資料集有許多的不同的語種,就目前而言,中文,英文這些相對使用量大的語言,那麼這樣就分為大語種和小語種有不同的處理方式了。大語種的話...

ORACLE如何處理海量資料

當前資料存在的問題 一 資料量過大,資料中什麼情況都可能存在。如果說有10條資料,那麼大不了每條去逐一檢查,如果資料上到千萬級別,甚至過億,那不是手工能解決的了,必須通過工具或者程式進行處理,尤其海量的資料 二 軟硬體要求高,系統資源佔用率高。對海量的資料進行處理,除了好的方法,最重要的就是合理使用...

如何處理分類中的訓練資料集不均衡問題

在分類中,訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子 在乙個二分類問題中,訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類,最後結果是其忽略了class 2,將所有的訓練樣本都分類為class 1。在三分類問題中,三個類別分別為a,b,c...