機器學習中樣本不平衡的常用處理方法

2021-09-05 08:57:38 字數 506 閱讀 9368

取樣是為了解決資料不均衡的問題,資料不均衡問題即各類別的樣本分佈不均衡問題。如果不處理資料不均衡問題,會導致擬合出來的模型對訓練集中樣本數比較少的類別泛化能力較差。例如,對於二分類問題,訓練集中a類別樣本佔比90%,b類別樣本佔比10%,測試集中a、b類別樣本各佔比50%,若不處理資料不均衡問題,訓練出來的模型在測試集裡對類別b的**準確率會比較低,甚至低於50%(低於50%還不如不訓練)。

解決資料不平衡問題主要有權重法和取樣法。

假設樣本數目a模擬b類多(例如a100,b10),且嚴重不平衡,則有兩種處理方法,一種是基於樣本的,另一種是基於演算法的。

1)a類欠取樣

2)b類過取樣

例如將b類資料複製5份,這樣可以避免欠取樣造成的資訊丟失,但事實證明,欠取樣比過取樣效果好,因為欠取樣的速度快。

3)b類資料合成新樣本

降低a類權值,提高b類的權值。

例如,給a的樣本權值設定為0.1,給b的樣本權值設定為10(實際中b的權值設定為2就可以)

機器學習中樣本不平衡的處理方法

過取樣閾值移動 在現實收集的樣本中,正負類別不均衡是現實資料中很常見的問題。乙個分類器往往 accuracy 將近90 但是對少數樣本的判別的 recall 卻只有10 左右。這對於我們正確找出少數類樣本非常不利。一般而言,正負樣本比例超過1 3,分類器就已經會傾向於負樣本的判斷 表現在負樣本rec...

機器學習之樣本不平衡

1.樣本不平衡導致什麼問題?在機器學習的分類問題中,以二分類為例,如果訓練集合的正例和負例的樣本不平衡,相差懸殊很大。比如針對這個不平衡的訓練結合運用邏輯回歸的時候,一般來說,邏輯回歸的閾值0 1,常取0.5,當樣本不平衡時,採用預設的分類閾值可能會導致輸出全部為反例,產生虛假的高準確度,導致分類失...

keras中處理樣本不平衡

參考文獻 兩者的區別為 class weight 主要針對的上資料不均衡問題,比如 異常檢測的二項分類問題,異常資料僅佔1 正常資料佔99 此時就要設定不同類對loss的影響。sample weight 主要解決的是樣本質量不同的問題,比如前1000個樣本的可信度,那麼它的權重就要高,後1000個樣...