yolo 學習筆記分享之 VOC資料集

2021-09-01 12:23:47 字數 2842 閱讀 4549

參考:

《pascal voc資料集詳細分析》

《檢測資料集分析voc+coco_rgbd》

首先概念解釋:

└── vocdevkit     #根目錄
├── annotations        #存放xml檔案,與jpegimages中的一一對應,解釋的內容等等

├── imagesets          #該目錄下存放的都是txt檔案,txt檔案中每一行包含乙個的名稱,末尾會加上±1表示正負樣本

│   ├── action

│   ├── layout

│   ├── main

│   └── segmentation

├── jpegimages         #存放源

├── segmentationclass  #存放的是,分割後的效果,見下文的例子

└── segmentationobject #存放的是,分割後的效果,見下文的例子這裡大概介紹一下各個資料夾的內容,更細節的介紹將在後文給出: 

- annotation資料夾存放的是xml格式的標籤檔案,該檔案是對的解釋,每張(位於同目錄下的 jpegimages)都對於乙個同名的xml檔案,每乙個xml對應一張影象,並且每個xml中存放的是標記的各個目標的位置和類別資訊,命名通常與對應的原始影象一樣。

- imagesets資料夾存放的是txt檔案,這些txt將資料集的分成了各種集合。

action下存放的是人的動作(例如running、jumping等等,這也是voc challenge的一部分);

layout下存放的是具有人體部位的資料(人的head、hand、feet等等,這也是voc challenge的一部分)main下存放的是影象物體識別的資料,總共分為20類。

segmentation下存放的是可用於分割的資料。其中main資料夾包含20個分類的train.txt,val.txt和trainval.txt,在txt檔案中前邊的數字表示名字,後邊的1和-1表示正負樣本的標籤

- jpegimages資料夾存放的是資料集的原,橫向圖尺寸大約在500*375左右,縱向圖尺寸大約在375*500左右,基本偏差不會超過100,因為訓練的第一步就是將resize到300*300或者500*500.

- segmentationclass以及segmentationobject資料夾存放的都是,且都是影象分割結果圖(樓主沒用過,所以不清楚:隨後完善)

voc2012  #表明**

2007_000027.jpg #名稱

#**相關資訊

the voc2007 database

pascal voc2007

flickr

#影象尺寸

4865003

0 #是否用於分割

#包含的物體

person #物體類別

unspecified00

#物體的bbox

174101349

351 #物體的頭

head

169104

209146

#物體的手

hand

278210

297233

foot

273333

297354

foot

319307

340326

imagesets包含如下四個子資料夾(也可能是三個,隨後完善): 

各個資料夾中存放的是各種用途的txt檔案。例如在main資料夾下有名為aeroplane_train.txt的檔案,顧名思義是用於飛機類別的訓練資料。該txt的具體內容如下,其中±1應該表示的是正負樣本的含義(沒有具體研究:待完善):

2008_000008 -1

2008_000015 -1

2008_000019 -1

2008_000023 -1

2008_000028 -1

2008_000033 1

2008_000036 -1

2008_000037 1

2008_000041 -1

2008_000045 -1

其中包含的train.txt以及trainval.txt等檔案內容與上面類似。不過博主發現train.txt和trainval.txt內容中光有的名字,末尾沒有標註正負1.(待完善)

同上,把內容截圖上傳: 

microsoft coco資料集:

微軟官方對coco的解釋:

1)object segmentation(2)recognition in context(3)multiple objects per image(4)more than 300,000 images(5)more than 2 million instances(6)80 object categories(7)5 captions per image(8)keypoints on 100,000 people

coco資料集以場景理解為目標,從複雜的日常場景中擷取,影象中的目標通過精確的segmentation進行位置的標定,包含91類目標.

PCIe學習筆記分享

本總結隨著dm8168中pcie的學習,以及pcie原理的學習而新增,都是一些零碎的知識點,有部分個人理解,將來溫故知新用。欠奉。pcie裝置需要使用refclk refclk作為本地參考時鐘,其時鐘頻率固定為100mhz,在dm8168系統中,需要提供兩個100mhz時鐘,乙個給dm8168用於檢...

PHP學習筆記分享(一)

apache目錄介紹 bin 二進位制 windows下的一些可執行檔案 conf 配置檔案目錄 htdocs apache預設的主機位址 根目錄 modules 模組 apache的所有功能都是模組化的,想要什麼內容,用相應模組載入 httpd.exe的詳細應用 1.伺服器程序 執行之後才能工作 ...

HTML5學習筆記分享 一

簡介 通俗來講就是一種前端語言。超文字標記語言 英語 hypertext markup language,簡稱 html 是一種用於建立網頁的標準標記語言。它是標準通用標記語言下的乙個應用。超文字 就是指頁面內可以包含 鏈結,甚至 程式等非文字元素。超文字標記語言的結構包括 頭 部分 英語 head...