如何處理不平衡資料

2021-08-09 10:16:54 字數 613 閱讀 7553

過取樣:過擬合(學習到小類別樣本中的雜訊)

欠取樣:欠擬合(丟失大類別樣本中的重要資料)

找到小類別樣本中的k個近鄰,然後在他們之間的連線上取點,作為新的樣本。

缺點:容易過擬合

其與smote的不同是:smote是對每乙個minority樣本產生綜合新樣本,而borderline-smote僅對靠近邊界的minority樣本創造新資料。

tomek links用於去除重疊資料,其主要思想是:找出最近距離的2個樣本(這2個樣本屬於不同的類),然後將這2個樣本都去除,直到某一樣本周圍的近鄰都是屬於同一類。

取樣方法主要考慮正負例的分布,而代價敏感方法主要考慮誤分類樣本的代價,通過代價矩陣來度量。

也就是說,正負樣本不平衡的問題是如果兩類錯誤的代價都相同的話,則學習的目標就相當於最大化accuracy,而如果我們增大將小類別識別為大類別類的代價的話,就相當於考慮了模型召回率或precision。

這樣就會使得模型更注意小類別的準確性。

例如在svm中每次選擇距離分離超平面最近的樣本點,這樣最後選擇的樣本點比例不會出現太多的差別,

如何處理標籤不平衡問題

訓練集標籤類別不平衡是機器學習模型訓練非常常見的乙個問題。它是指訓練集中標籤a和標籤b樣本數比例差別很大,當要 小類標籤,即使模型的效果特別差,模型 的準確率也能達到很高的數值。因此,我們需要處理不平衡的資料集,避免這種情況出現。一般情況下,我們需要處理的是極不平衡的問題 比如類別比例在1 100 ...

不平衡資料處理

在做實驗中遇到了非平衡資料集,導致實驗結果很憂傷,資料類別不均對模型訓練有挺大影響,尤其是在類別極度不均的時候。目前還沒有很好的解決方法,還處於查詢資料,比著葫蘆找葫蘆的過程中,記錄一下,或許能有所啟發。對於不平衡資料,其實類別精度 precise 和召回率 recall 或者是準確率 accura...

深度學習之如何處理樣本不平衡?

在計算機視覺 cv 任務裡常常會碰到類別不平衡的問題,例如 檢測任務 現在的檢測方法如ssd和rcnn系列,都使用anchor機制。訓練時正負anchor的比例很懸殊.再者,除了類不平衡問題,還有easy sample overwhelming的問題。easy sample如果太多,可能會將有效梯度...