不同資料集下使用微調:
資料集1-資料量少,但資料相似度非常高-在這種情況下,我們所做的只是修改最後幾層或最終的softmax圖層的輸出類別。
資料集2-資料量少,資料相似度低-在這種情況下,我們可以凍結預訓練模型的初始層(比如k層),並再次訓練剩餘的(n-k)層。由於新資料集的相似度較低,因此根據新資料集對較高層進行重新訓練具有重要意義。
資料集3-資料量大,資料相似度低-在這種情況下,由於我們有乙個大的資料集,我們的神經網路訓練將會很有效。但是,由於我們的資料與用於訓練我們的預訓練模型的資料相比有很大不同,使用預訓練模型進行的**不會有效。因此,最好根據你的資料從頭開始訓練神經網路(training from scatch)。
資料集4-資料量大,資料相似度高-這是理想情況。在這種情況下,預訓練模型應該是最有效的。使用模型的最好方法是保留模型的體系結構和模型的初始權重。然後,我們可以使用在預先訓練的模型中的權重來重新訓練該模型。
機器學習資料集
ucl機器學習知識庫 包括近300個不同大小和型別的資料集,可用於分類 回歸 聚類和推薦系統任務。資料集列表位於 amazon aws公開資料集 包含的通常是大型資料集,可通過amazon s3訪問。這些資料集包括人類基因組專案 common crawl網頁語料庫 維基百科資料和google boo...
機器學習資料集 Dataset 彙總
cifar 10包含10個類別,50,000個訓練影象,彩色影象大小 32x32,10,000個測試影象。類別 airplane,automobile,bird,cat,deer,dog,frog,horse,ship,truck 資料格式 python版本 matlab版本 二進位制版本 cifa...
機器學習iris資料集匯入
iris資料集在模式識別研究領域應該是最知名的資料集了,有很多文章都用到這個資料集。這個資料集裡一共包括150行記錄,其中前四列為花萼長度,花萼寬度,花瓣長度,花瓣寬度等4個用於識別鳶尾花的屬性,第5列為鳶尾花的類別 包括setosa,versicolour,virginica三類 也即通過判定花萼...