資料不足時的處理方法

2021-09-30 01:25:39 字數 997 閱讀 4977

在機器學習中,絕大部分模型都需要大量的資料進行訓練和學習,然而在實際應用中經常會遇到訓練不足的問題,比如影象分類,作為計算機視覺最基本的任務之一,其目標是將每一副影象劃分到制定類別集合中的乙個或者多個類別中,當訓練乙個影象分類模型時,如果訓練樣本比較少,該如何處理。

乙個模型所能提供的資訊一般**於兩個方面,一是訓練資料中蘊含的資訊;二是模型形成過程中(包括構造學習和推理等),人們提供的先驗資訊。當訓練資料不足的時候,說明模型從原始資料中獲取的資訊比較少,這種情況下要想要保證模型的效果,就需要更多的先驗資訊。先驗資訊可以作用的模型上,例如讓模型採用特定的內在結構,條件假設或新增其他一些約束條件;先驗資訊也可以直接施加再資料集上,即根據特定的先驗資訊去調整,變換或者擴充訓練資料,讓其展現出更多的、更有用的資訊。以利於後期模型的訓練和學習。

降低過擬合的風險的措施有:

簡化模型(將非線性模型簡化為線性模型),新增約束項以縮小假設空間(如l1/l2正則項),整合學習,dropout超引數等。還有基於資料的方法,主要是通過資料擴充。

在影象分類中增加資料集的方法有:

(1)一定程度內的隨機旋轉,平移,縮放,裁剪,填充,左右翻轉等。

(2)對影象中的畫素新增雜訊擾動,比如椒鹽雜訊,高斯白雜訊等。

(3)顏色變動。例如,在影象的rgb顏色空間上進行主成分分析,得到3個主成分的特徵向量p1,p2,p3及對應的特徵值

(4)改變影象的亮度,清晰度,對比度,銳度等。

除了直接在影象空間進行變換,還可以先對影象進行特徵提取,然後在影象的特徵空間內進行變換,利用一些通用的資料擴充或者上取樣技術,例如smote演算法,拋開上述這些啟發式的變換方法,使用生成模型也可以合成一些新樣本,例如今年最為流行的生成式對抗網路模型。

此外,借助已經有的其他模型或資料來進行遷移學習在深度學習中也十分常見。例如,對於大部分影象分類任務,並不需要從頭開始訓練模型,而是借用乙個大規模資料集上預先訓練好的通用模型,並在針對目標任務的小資料集上進行微調,這種微調就可以看成是乙個簡單的遷移學習。

windows系統資源不足的處理方法

1.清除 剪貼簿 當 剪貼簿 中存放的是一幅圖畫或大段文字時,會占用較多記憶體。請清除 剪貼簿 中的內容,釋放它占用的系統資源 單擊 開始 指向 程式 指向 附件 指向 系統工具 單擊 剪貼簿檢視程式 然後在 編輯 選單上,單擊 刪除 命令。2.減少自動執行的程式。如果在啟動windows時自動執行...

c 異常處理 的不足

c 的異常處理模組,只有簡單的try.catch.結構,實際使用過程中,很多的時候感到非常的乏力,經常需要釋放資源,很多的時候需要提前返回,經常忘掉釋放資源,即使記得,也要重複的編寫 遠遠沒有 delphi的 try fianlly來的更加的直接.有很多的帖子說,將需要釋放的資源封裝成類,在析構函式...

oracle 日誌滿 資料庫空間不足的處理

客戶反映寬頻認證伺服器,認證日誌 認證詳單沒有且部分寬頻使用者有掉線現象 處理過程 1.檢視磁碟空間使用情況 df h 發現有一磁碟使用100 2.經過分析發現資料庫日誌異常大,清理相關日誌 10g 3.檢視資料庫空間使用情況 select dbf.tablespace name,dbf.total...