資料集類別不平衡問題

2021-10-09 11:49:53 字數 1010 閱讀 8413

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。一般來說,不平衡樣本會導致訓練模型側重樣本數目較多的類別,而「輕視」樣本數目較少類別,這樣模型在測試資料上的泛化能力就會受到影響。乙個例子,訓練集中有99個正例樣本,1個負例樣本。在不考慮樣本不平衡的很多情況下,學習演算法會使分類器放棄負例**,因為把所有樣本都分為正便可獲得高達99%的訓練分類準確率。

資料集方面進行處理:

欠取樣:去處一些分類中多餘的樣本,使達到正負樣本平衡;

過取樣:增加一些樣本數少的分類中的樣本,從而達到正負樣本數平衡;

類別均勻取樣方法:通過對每類資料進行一些處理,使得達到最終取樣採集到每類資料的概率一樣;

閾值移動:利用「再縮放」思想:閾值移動方法是使用原始訓練集訓練好分類器,而在**時加入再縮放的思想,用來緩解類別不平衡的方法。

線性質再縮放的思想:

演算法層面的處理方法

帶權重的softmaxloss:

在樣本不均衡分類問題中,樣本量大的類別往往會主導訓練過程,因為其累積loss會比較大。帶權重的softmaxloss函式通過加權來決定主導訓練的類別。具體為增加pos_mult(指定某類的權重乘子)和pos_cid(指定的某類的類別編號)兩個引數來確定類別和當前類別的係數。(若pos_mult=0.5,就表示當然類別重要度減半)。

2.ohemloss:

ohem被稱為難例挖掘,針對模型訓練過程中導致損失值很大的一些樣本(即使模型很大概率分類錯誤的樣本),重新訓練它們.維護乙個錯誤分類樣本池, 把每個batch訓練資料中的出錯率很大的樣本放入該樣本池中,當積累到乙個batch以後,將這些樣本放回網路重新訓練。通俗的講ohem就是加強loss大樣本的訓練。

3.focalloss :

類別不平衡問題

詳解類別不平衡問題 盧總 類別不平衡問題的方法彙總 為少數類生成新樣本 smote borderline smote adasyn 整合方法 演算法層面 focal loss 損失函式的權重調整 閾值移動 評價指標 非均衡資料處理 如何學習?隨機降取樣 bagging是萬金油。屬於bagging 假...

類別不平衡資料處理

1 不平衡資料處理教程 1 2 3 4 2 不平衡資料分類演算法 1 over sampling 隨機過取樣 smote adasyn 臨界smote演算法 svm smote等。2 under sampling 隨機欠取樣 enn renn allknn等。3 combination smotet...

資料樣本類別不平衡

準確度 accuracy 注意與精度區分 對於二分類問題來說,正負樣例比相差較大為99 1,模型更容易被訓練成 較大佔比的類別。因為模型只需要對每個樣例按照0.99的概率 正類,該模型就能達到99 的準確率。1.上取樣 smote過取樣方法,基於插值來為少數類合成新的樣本 構建新的樣本 2.下取樣 ...