資料處理之資料不平衡問題

2022-07-30 13:00:16 字數 1554 閱讀 8408

資料不平衡,又稱樣本比例失衡。對於二分類問題,在正常情況下,正負樣本的比例應該是較為接近的,很多現有的分類模型也正是基於這一假設。但是在某些特定的場景下,正負樣本的比例卻可能相差懸殊,如社交網路中的大v判斷、電商領域的惡意差評檢測、金融領域的欺詐使用者判斷、風控領域的異常行為檢測、醫療領域的腫瘤診斷等。

根據資料量的多少和資料不平衡程度,可以將資料不平衡問題分為以幾類:

(1)大資料+輕微資料不平衡(正負樣本數量相差在乙個數量級內)

如豆瓣上的電影評分資料分布等,此類問題常見的機器學習模型即可解決,無須額外處理。

(2)小資料 + 輕微資料不平衡(正負樣本數量相差在乙個數量級內)

此類問題可以通過加隨機擾動的上取樣方法處理。

(3)大資料 + 中度資料不平衡(正負樣本數量相差在兩個個數量級內)

此類問題可以通過下取樣的方法處理。

(4)小資料 + 中微資料不平衡(正負樣本數量相差在兩個數量級內)

如醫學影象分析。此類問題可以用資料合成的方法來解決。

(5)大資料 + 重度資料不平衡(正負樣本數量相差超過兩個數量級)

如金融領域的欺詐使用者判斷,風控領域的異常行為檢測。此類問題可以通過一分類(one-class learning)或離群點異常檢測方法來解決。

(6)小資料 + 重度度資料不平衡(正負樣本數量相差超過兩個數量級)

如醫療領域的腫瘤診斷。此類問題可以通過一分類(one-class learning)或離群點異常檢測方法來解決。

資料取樣通過對原始資料集進行處理,使各類別資料比例維持在乙個合理的比例。可分為上取樣和下取樣。

(1)上取樣。上取樣(oversampling)是通過把少量資料類別的資料重複複製的方法使各類別資料比例維持在合理的比例,但是基於這樣取樣方法訓練出來的模型容易出現過擬合,可以在每次生成新資料的時候加入輕微隨機擾動。

(2)下取樣。下取樣(undersampling)是通過從多數資料類中篩選出部分資料使各類別資料比例維持在合理的比例,但是這種取樣方法容易丟失關鍵資料,可以通過多次隨機下取樣來解決。

資料合成是利用已有樣本的特徵相似性生成更多新的樣本,主要應用在小資料場景下,如醫學影象分析。

加權的方法是通過對不同類別分類錯誤施加不同權重的代價,使得不同類別的加權損失值近似相等。

當正負樣本比例嚴重失衡時,靠單純的取樣和資料合成已經並不能很好地解決問題。因為上述方法雖然解決了訓練資料的正負樣本比例問題,但卻嚴重偏離了原始資料的真實分布情況,會導致模型訓練結果並不能真正反映實際的情況,會有很大的偏差。

此時,可以考慮用一分類(one-class classification)來解決。最常見的一分類方法是one-class svm,其基本思路如下:利用高斯核函式將樣本空間對映到核空間,在核空間中找到乙個能夠包含所有資料的乙個球體,當進行判別時,如果測試資料位於這個高維球體之中,則將其歸為多數類,否則就歸為少數類。一分類除了可用來解決資料嚴重不平衡時的分類問題,還可以應用於金融和醫療領域的異常檢測。

總結來說,在樣本資料量較大,且正負樣本比例相差並不懸殊(兩個數量級以內)的情況下,可以考慮使用取樣或加權的方法解決;在正負樣本資料都非常之小時,可以考慮用資料合成的方法解決;在正負樣本資料比例相差懸殊的情況下,可以考慮用一分類的方法解決。

不平衡資料處理

在做實驗中遇到了非平衡資料集,導致實驗結果很憂傷,資料類別不均對模型訓練有挺大影響,尤其是在類別極度不均的時候。目前還沒有很好的解決方法,還處於查詢資料,比著葫蘆找葫蘆的過程中,記錄一下,或許能有所啟發。對於不平衡資料,其實類別精度 precise 和召回率 recall 或者是準確率 accura...

類別不平衡資料處理

1 不平衡資料處理教程 1 2 3 4 2 不平衡資料分類演算法 1 over sampling 隨機過取樣 smote adasyn 臨界smote演算法 svm smote等。2 under sampling 隨機欠取樣 enn renn allknn等。3 combination smotet...

資料不平衡問題

資料不平衡問題實際上指的就是y的分布相差很大的問題,又稱為類別不平衡問題。出現這種問題的原因是在實際取樣中,有可能會出現一類的y數量遠遠大於另一類的例子。乙個很明顯的例子就是在做信用卡還款 的時候,一定是按時還款的人佔據絕大多數,不按時還款的人佔一小部分,那如果機器無腦 新客戶一定會還款,正確率是很...