本篇對小樣本學習常用資料集進行介紹,由於本人理解問題,可能還存在誤差。
1、omniglot
相當於1623個類,每類20個樣本。對於one shot來說,support_num_per_class = 1,query_num_per_class = 19。
每個影象都與筆畫資料配對, 座標序列為 [x, y, t][x,y,t], 且時間 (t)(t) 以毫秒為單位。筆畫資料僅在matlab/
檔案中可用。
資料集的引用: lake, b. m., salakhutdinov, r., and tenenbaum, j. b. (2015). human-level concept learning through probabilistic program induction.
science, 350(6266), 1332-1338.
omniglot 資料集總共包含 50 個字母。我們通常將這些分成一組包含 30個字母的背景(background)集和一組包含 20 個字母的評估(evaluation)集。
更具挑戰性的表示學習任務是使用較小的背景集 「background small 1」 和 「background small 2」。每乙個都只包含 5 個字母, 更類似於乙個成年人在學習一般的字元時可能遇到的經驗。
2、miniimagenet#!/usr/bin/env bash
datadir=data/omniglot/data
mkdir -p $datadir
wget -o images_background.zip
wget -o images_evaluation.zip
unzip images_background.zip -d $datadir
unzip images_evaluation.zip -d $datadir
mv $datadir/images_background/* $datadir/
mv $datadir/images_evaluation/* $datadir/
rmdir $datadir/images_background
rmdir $datadir/images_evaluation
miniimagenet取自imagenet中,包含100個類別,每個類別中包含600個樣本資料。其中64個類別資料作為訓練集,16個類別資料作為驗證集,20個類別資料作為測試集。由於類別較少,一般只做5 way的,不做20way的。
其中原型網路方法分別使用30-way的episode對1-shot類和20-way的episode對5-shot的樣本資料進行訓練。在訓練和測試時保持shot數目一致,query查詢點的個數為每個類別15個。
參考文獻:
3、cub
cub一般用於zero shot。
cub資料集包含訓練集包含100個類別,驗證集包含50個類別,測試集包含50個類別。對於312維度的元向量,模型對鳥類的種類、顏色、羽毛等屬性進行編碼得到。
其中原型網路方法訓練episode的類別為50,每個類別的查詢點為10個。
參考文獻:
小樣本點雲深度學習庫 小樣本學習 資料層面的方法
網際網路大資料處理技術與應用 的相關教學資源 網路爬蟲的完整技術體系 我的資料誰做主?充足的標註樣本是保證分類器成功的主要因素,然而現實中由於隱私 代價等許多問題,樣本不足是經常遇到的問題。而人類可以從很少的中抽象出乙個新的概念,甚至可以不看就可以得到新的概念,比如告訴小孩帶條紋的馬叫做斑馬,當他今...
機器學習樣本資料集,訓練正負樣本
1 caltech 101 資料庫 該資料庫在2003年被發布,包括101類目標影象和1類背景影象,共102類,彩色影象較多,有部分灰度影象。總共影象數為9145 除去背景後總數為8677 每類影象數大約在31 800之間,影象大小為300 200。此資料庫的特點是 每個影象只含有乙個目標,且目標大...
MySQL Sakila樣本資料庫
sakila樣本資料庫介紹 sakila樣本資料庫是mysql官方提供的乙個模擬 租賃資訊管理的資料庫,提供了乙個標準模式,可作為書中例子,教程 文章 樣品,等等,對學習測試來說是個不錯的選擇。mysql other mysql documentation example databases sak...