首先是資料集
其中有三個檔案包:
annotations:xml格式,包含名稱,尺寸及通道數,中的object類別及邊界(左上右下四個點)
jpegimages:ipg格式,所有的一起,訓練集和測試集(按序號命名)
imagesets:4個txt檔案,訓練驗證集,訓練集,驗證集,和測試集的按序號劃分。
資料集預處理:
定義模型
超參設定並定義評價指標(map是通過測試集求出的,根據map定義需要將全部測試集遍歷一次才能求出一次map)
訓練模型:
儲存模型(引數,路徑,map)
的訓練過程 模型訓練過程中累計auc
在平時計算auc的時候,大都是使用 sklearn.metrics.roc auc score 來計算。一般操作是將每個batch 出來的結果 拼接起來,然後扔到該函式中計算。但是如果測試集量級過大 比如 10億量級 每個樣本的 結果拼接起來之後至少需要 3g記憶體。這個開銷顯然不是我們想要的。有什...
訓練過程 GPU訓練
為什麼y2b的8m,8張普通tt為啥要跑幾個月?因為gpu其實有60 的時間都是在等待資料填充完成,簡直蠢。1 換個固態硬碟試試?沒用。問題出在系統匯流排上,一幀的資料量入視訊記憶體後有1.58g 當前最優的分布式訓練方式是通過引數伺服器 parameter server 執行的同步隨機梯度下降演算...
Adaboost 訓練過程
每個haar特徵對應看乙個弱分類器,但並不是任伺乙個haar特徵都能較好的描述人臉灰度分布的某一特點,如何從大量的haar特徵中挑選出最優的haar特徵並製作成分類器用於人臉檢測,這是adaboost演算法訓練過程所要解決的關鍵問題。paul viola和michael jones於2001年將ad...