資料集的noise對訓練效果的影響很大!很長一段時間megaface的效果都上不去,就是因為資料集雜訊的原因。而且自己在訓練人臉的時候,如果不對資料集的雜訊和屬性有一點了解,對訓練結果可能會有誤判,甚至越訓練越差…在選擇資料集的時候不要一味求大,有的時候選擇乙個noise比例極高的大資料集,效果還不如選擇乙個clean的小資料集呢,可以參見這篇**the devil of face recognition is in the noise
全名是labeled faces in the wild.這個資料集是人臉評估一定會用到的乙個資料集,包含了來自1680的13000張人臉圖,資料是從網上搜尋來的。基本都是正臉。這個資料集也是最簡單的,基本主流演算法都能跑到99%以上,貌似有6對label錯了,所以最高正確率應該是99.9%左右。這個都跑不到99%的話別的資料集表現效果會更差。一般來說這個資料集是用來做人臉識別驗證的。
這個資料集由500個identity的約共7000張組成,這個資料集的特別之處在於對於每個人,它有10張正面影象和4張側面影象,這對於想要做側臉識別的同學還是很有幫助的。
來自2622個人的2百萬張。每個人大概要2000+,跟ms-celeb-1m有很多重疊的地方(因為都是從搜尋引擎來的),這個資料集經常作為訓練模型的資料,雜訊比較小,相對來說能訓練出比較好的結果.
該資料集是從imbb**上蒐集來的,含10k個人的500k張。同時做了相似度聚類來去掉一部分雜訊。caisa-webface的資料集源和imdb-face是一樣的,不過因為資料清洗的原因,會比imdb-face少一些。雜訊不算特別多,適合作為訓練資料。(1萬人)
100k人的共100m,來自搜尋引擎。這個資料集非常大,沒有清洗過,雜訊很大,很難。用未經過清洗的ms-celeb-1m訓練google facenet和insightface的accuracy都比較低。(10萬人)
(然而沒有被請洗過的ms1m資料集雜訊太大,所以其實更推薦使用ibug清洗過的資料集(以下鏈結來自insightface團隊)ms1m)
672k人的4.7m張,做過一些清洗,不過依然有雜訊,不同人的可能混到了一起。相比來說雜訊可能比ms-celeb-1m小一點,但還是挺大的…這個資料集是由兩個資料集組合而來:facescrub和fgnet,所以如果你要使用多個資料集,注意有沒有重合哦!
各個資料集的scale和雜訊比例見下圖(來自**the devil of face recognition is in the noise)。這篇**也有提到清洗資料的雜訊能夠有效提公升訓練表現,所以大家自己在做人臉相關的檢測時也要心中有數,除了可以優化演算法,優化資料集也是一種方向。
請參考這個知乎寫的挺好的
參考: 人臉識別常用資料集
人臉識別 人臉資料集大全
資料庫描述 用途獲取方法 webface 10k 人,約500k張 非限制場景 鏈結facescrub 530人,約100k張 非限制場景 鏈結youtube face 鏈結lfw 5k 人臉,超過10k張 標準的人臉識別資料集 鏈結multipie 337個人的不同姿態 表情 光照的人臉影象,共7...
人臉識別的LOSS(多分類Softamx)
早期深度人臉識別方法,框架為cnn softmax,以 超多分類 這樣一種比較難的任務訓練cnn,強迫網路在第乙個fc層形成比較緊湊的,判別力很強的深度人臉特徵,之後用於人臉識別。softmax是soft 軟化 的max。在cnn的分類問題中,我們的ground truth是one hot形式,下面...
人臉識別 LFW資料集介紹
labeled faces in the wild官網 lfw lfw labeled faces in the wild 人臉資料庫是由美國麻薩諸塞州立大學阿默斯特分校計算機視覺實驗室整理完成的資料庫,主要用來研究非受限情況下的人臉識別問題。lfw 資料庫主要是從網際網路上蒐集影象,而不是實驗室,...