機器學習 不平衡資料集

2021-09-01 09:22:19 字數 704 閱讀 9109

不平衡資料集是指在解決分類問題時每個類別的樣本量不均衡的資料集。

比如,在二分類中你有100個樣本其中80個樣本被標記為class 1, 其餘20個被標記為class 2. 這個資料集就是乙個不平衡資料集,class 1和class 2的樣本數量之比為4:1.

不平衡資料集不僅存在於二分類問題而且存在於多分類問題中。

我們首先想到的應該是如何能夠收集到更多的資料,往往更多的資料能夠戰勝更好的演算法。

當我的資料集是不平衡資料集時,準確率作為衡量指標往往會產生誤導作用。當處理不平衡資料集時,這裡有幾種指標可以採用。

主要有兩種方法:

smote是一種過取樣演算法,它構造新的小類樣本而不是產生小類中已有的樣本的副本,即該演算法構造的資料是新樣本,原資料集中不存在的。該基於距離度量選擇小類別下兩個或者更多的相似樣本,然後選擇其中其中乙個樣本,並隨機選擇一定數量的鄰居樣本對選擇的那個樣本的乙個屬性增加雜訊。這樣就構造了更多的新生資料。

對待不同的問題不要總是使用自己喜歡和熟悉的演算法,應該使用不同演算法進行比較。決策樹在不平衡資料集處理上有較好的表現。

你可以使用相同的分類演算法但是使用乙個不同的角度,比如說你的任務是識別小類,那麼可以對分類器的小類樣本資料增加權重,降低大類樣本的權值(這張方法實際產生了新的資料分布)。如penalized-svm、penalized lad

把小樣本看成異常點檢測。

資料不平衡 機器學習

2.1 加權處理 2.2 過取樣 2.3 降取樣 2.1加權處理 加權的操作 1.遍歷每個樣本 2.如果樣本滿足某個要求,例如在不平衡的二分類問題中,如果樣本的標籤是1,那麼我們就將其權重設為w 1w 1 w1 如果樣本標籤為0,那麼我們將其權重設定為w 2w 2 w2 3.將樣本權重帶入模型進行訓...

資料集類別不平衡問題

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。一般來說,不平衡樣本會導致訓練模型側重樣本數目較多的類別,而 輕視 樣本數目較少類別,這樣模型在測試資料上的泛化能力就會受到影響。乙個例子,訓練集中有99個正例樣本,1個負例樣本。在不考慮樣本不平衡的很多情況下,學習演算法會使分類器放棄...

資料不平衡問題

資料不平衡問題實際上指的就是y的分布相差很大的問題,又稱為類別不平衡問題。出現這種問題的原因是在實際取樣中,有可能會出現一類的y數量遠遠大於另一類的例子。乙個很明顯的例子就是在做信用卡還款 的時候,一定是按時還款的人佔據絕大多數,不按時還款的人佔一小部分,那如果機器無腦 新客戶一定會還款,正確率是很...