思考 現有 不平衡樣本處理方法 的 缺陷

2021-08-14 19:35:15 字數 637 閱讀 1620

現實中採集到的訓練樣本往往分布不均。如果不加處理而直接訓練,往往會使得模型更側重訓練到樣本數目較多的類別,而輕視了樣本數目較少類別,最終影響到模型的泛化能力。

這種問題被稱為 「不平衡樣本問題」。對應的處理方法包括資料層面處理方法(資料重取樣、類別平衡取樣)以及演算法層面處理方法(代價敏感方法)等。

現有的不平衡樣本處理,都是訓練 之前基於 先驗資訊所進行的處理。

而在實際訓練過程中,模型會暴露出 新的學習短板(即後驗資訊)。那麼之前按照先驗資訊處理後的 「平衡樣本」 ,在後驗資訊的衡量下 就會顯得不平衡

是繼續填鴨式教學,還是側重對知識盲點的訓練?that』s a question 。

設計演算法,每隔一段訓練輪數,檢查哪些類的**準確率低,然後在後期加大這些類的取樣比例,再進行訓練。

相當於乙個 良師型的 樣本取樣演算法 。

但同時我在想,訓練過程中的誤差反向傳播,不也是一次對所暴露知識盲點的側重學習麼?那麼照此看來,如果用了我新提出的這套方法,豈不是變相把學習率增大?那不是就意味著更快地進入過擬合狀態了?!

樣本不平衡的處理方法

樣本不平衡其實的主要思想就是過取樣和欠取樣,但是由於在複製少量標籤的樣本或者篩選大量標籤的樣本方法不同衍生出了不同的處理手段 1.隨機過取樣 複製標籤少的樣本使得好壞比滿足建模需要 2.隨機欠取樣 抽取標籤多的樣本使得好壞比滿足建模需要 會丟失樣本資訊 3.easyensemble 標籤多的樣本進行...

處理不平衡樣本集的取樣方法

在訓練二分類模型時,例如醫療診斷 網路入侵檢測 信用卡反詐騙等,經常會遇到正負樣本不均衡的問題。對於分類演算法,如果直接採用不平衡的樣本集進行訓練學習,會存在一些問題。例如,如果正負樣本比例達到1 99,則分類器簡單地將所有樣本都判定為負樣本能達到99 的正確率,顯然這並不是我們想要的,我們想讓分類...

keras中處理樣本不平衡

參考文獻 兩者的區別為 class weight 主要針對的上資料不均衡問題,比如 異常檢測的二項分類問題,異常資料僅佔1 正常資料佔99 此時就要設定不同類對loss的影響。sample weight 主要解決的是樣本質量不同的問題,比如前1000個樣本的可信度,那麼它的權重就要高,後1000個樣...