在深度學習中,樣本不均衡是指不同類別的資料量差別較大,利用不均衡樣本訓練出來的模型泛化能力差並且容易發生過擬合。
對不平衡樣本的處理手段主要分為兩大類:
資料層面 (簡單粗暴)
、演算法層面 (複雜)
。資料重取樣:上取樣或者下取樣
上取樣下取樣
使用情況
資料不足時
資料充足 (支撐得起你的浪費)
資料集變化
增加間接減少(量大類被截流了)
具體手段
大量複製量少類樣本
批處理訓練時,控制從量大類取的影象數量
風險過擬合
資料合成方法是利用已有樣本生成更多的樣本。其中最常見的一種方法叫做smote,它利用小眾樣本在特徵空間的相似性來生成新樣本。對於小眾樣本xi∈smin,從它屬於小種類的k近鄰中隨機選取乙個樣本,生成乙個新的小眾樣本xnew:
上圖是smote方法在k=6近鄰下的示意圖,黑色圓點是生成的新樣本。
在目標函式中,增加
量少類樣本
被錯分的
損失值。
準確度這個評價指標在類別不均衡的分類任務中並不能work.
不同型別的五分類情況導致的代價是不一樣的。因此定義代價矩陣,cij表示將類別j誤分類為i的代價,顯然c00=c11=0.c01和c10為兩種不同的誤分類代價,當兩者相等時為代價不敏感的學習問題。
代價敏感學習方法主要有以下的實現方式:
參考:[1]
[2]
[3]
樣本不均衡問題
樣本不均衡是機器學習,深度學習中常見問題。分類任務 a 95 b 5 模型將所有樣本 為a,那麼正確率可以達到95 第一種 是把多的那個組變少 降取樣 第二種 是把少的那個組變多 過取樣 最簡單的是oversampling,由於其侷限性,又有很多根據已有的資料生成新資料的方法,比如各種變體的synt...
分類問題 樣本不均衡
資料層 通過重取樣使樣本空間均衡 演算法層 重點學習正樣本來適應現存的分類器 損失敏感方法 整合資料層和演算法層的思想,假設正樣本誤分類的損失更大。boosting演算法 不斷提高樣本權重 1 對正樣本隨機過取樣,對負樣本隨機下取樣。2 按照樣本特徵和比例來過取樣正樣本或下取樣負樣本,雖然重取樣在樣...
樣本不均衡問題 bagging方法
bagging是一種用來提高學習演算法準確度的方法,這種方法通過構造乙個 函式系列,然後以一定的方式將它們組合成乙個 函式。它使用bootstrap抽樣,其基本思想是 將乙個弱學習演算法使用多次 每次使用乙個放回的重複抽樣 並對結果進行投票,最後選取投票多的結果作為最終的結果 也可以通過得票的平均值...