如何處理svhn資料集的mat檔案

碰到的問題

參考文件

mat格式的檔案是matlab的資料儲存標準格式。根據網上的教程，我首先用scipy庫處理mat檔案

import scipy.io as scio
data = scio.loadmat(r"d:\datasets\svt\train\digitstruct.mat"
)data.keys(
)

結果報了錯please use hdf reader for matlab v7.3 files

改用h5py檔案後，首先需要知道.mat檔案的結構。

h5py所處理的是hdf5檔案，在處理.mat檔案時可以把.mat檔案當作hdf5檔案。hdf5檔案是乙個容器，用於儲存兩類物件，datasets和group，可以把datasets理解為numpy中的陣列（array）,把group理解為字典（dictionaries）。

首先用h5py開啟檔案，用data.keys()檢視字典中的keys

import h5py
data = h5py.file(path,
'r')
print
(data.keys(
))

執行結果如下

我們所需的資訊在digitstruct中，digitstruct仍是乙個group，包含兩個資料

分別問bbox和name

array_data = data[
'digitstruct'
]print
(array_data.keys(
))

bbox中是的bbox資訊和label，name中是的名字待續

[1]. h5py快速入門指南

[2]. h5py，在svhn中訪問資料集中的資料

如何處理乙個文字資料集

目前有大量的資料集，但是不一定每個資料集對於你來說是一上手就可以使用的。而資料預處理對於乙個文字分類的結果來說，是非常重要的。目前我記錄一下我的資料預處理的一些方式文字資料集有許多的不同的語種，就目前而言，中文，英文這些相對使用量大的語言，那麼這樣就分為大語種和小語種有不同的處理方式了。大語種的話...

ORACLE如何處理海量資料

當前資料存在的問題一資料量過大，資料中什麼情況都可能存在。如果說有10條資料，那麼大不了每條去逐一檢查，如果資料上到千萬級別，甚至過億，那不是手工能解決的了，必須通過工具或者程式進行處理，尤其海量的資料二軟硬體要求高，系統資源佔用率高。對海量的資料進行處理，除了好的方法，最重要的就是合理使用...

如何處理分類中的訓練資料集不均衡問題

在分類中，訓練資料不均衡是指不同類別下的樣本數目相差巨大。舉兩個例子在乙個二分類問題中，訓練集中class 1的樣本數比上class 2的樣本數的比值為60 1。使用邏輯回歸進行分類，最後結果是其忽略了class 2，將所有的訓練樣本都分類為class 1。在三分類問題中，三個類別分別為a，b，c...

如何處理svhn資料集的mat檔案

如何處理乙個文字資料集

ORACLE如何處理海量資料

如何處理分類中的訓練資料集不均衡問題

相關推薦