解決樣本類別分布不均衡的問題

2021-08-24 23:33:38 字數 1526 閱讀 3256

不均衡指的是不同類別的樣本量差異非常大,樣本類別分布不均衡從資料規模上課=可分為大資料分布不均衡和小資料分布不均衡兩種。

大資料分布不均衡:例如擁有1000萬條記錄的資料集中,其中佔比50萬條的少數分類樣本便屬於這種情況

小資料分布不均衡:例如擁有1000條記錄的資料集中,其中占有10條樣本的分類,其特徵無論如何擬合也無法實現完整特徵值的覆蓋,屬於嚴重的資料樣本分佈不均衡,

樣本分佈不均衡(不同分類間的樣本量差異超過10倍)將導致樣本量少的分類所包含的特徵過少,很難從中提取規律,即使得到分類模型,也容易產生過度依賴於有限的資料樣本而導致過擬合的問題,當模型應用到新的資料時,模型的健壯性和準確性很差。

一、容易出現樣本不均衡的場景

1、異常檢測場景

例如惡意刷單,黃牛訂單,信用卡欺詐,電力竊電,裝置故障等,這些資料樣本所佔比例很小,比如刷實體信用卡的欺詐比例一般在0.1%之內。

2、客戶流失場景

大型企業的流失客戶相對於整體客戶而言是少量的,比如電信,石油,網路運營商等行業巨擎。

3、罕見事件的分析

例如由於某網路大v無意中**了企業的一條趣味廣告導致使用者流量明顯提公升。

4、發生頻率低的事件

例如雙11

二、通過過抽樣和欠抽樣解決樣本不均衡(大資料不均衡)

過抽樣(over-sampling):通過增加分類中少數類樣本的數量來實現樣本均衡,最簡單的辦法是複製少數類樣本形成多條記錄,缺點是如果樣本特徵少會導致過擬合,經過改進的過抽樣方法通過在少數類中加入隨機雜訊,干擾資料或通過一定規則產生新的合成樣本,例如smote演算法。

欠抽樣(under-sampling):通過減少分類中多數類樣本的數量來實現樣本均衡,最直接的辦法是隨機去掉一些多數類樣本來減少多數類的規模,缺點是會丟失多數類樣本中的一些重要資訊。

三、通過正負樣本的懲罰權重解決樣本不均衡

思想:對於分類中不同樣本數量的類別分別賦予不同的權重(小樣本量類別權重高,大樣本量類別權重低),然後計算和建模。

以sklearn中的svm為例,通過在class_weight:中針對不同類別手動指定權重,如果預設balanced,svm會將權重設定為與不同類別樣本數量呈反比的權重來進行自動均衡處理。

四、通過組合/整合方法解決樣本不均衡

指的是在每次生成訓練集時使用所有分類中的小樣本量,同時從大樣本量中隨機抽取資料與小樣本量合併構成訓練集,反覆多次,最後使用組合方法(投票,加權投票)產生分類**結果。

例如資料集中正負例的樣本分別為100和10000條,比例1:100,將負樣本分為100份,每次形成訓練集的時候使用所有的正樣本和隨機抽取的負樣本形成新的資料集,反覆進行可得到100個訓練集和對應的訓練模型。這種思路類似於隨機森林。

如果計算資源充足,並對模型的時效性要求不高,這種方法較合適。

五、通過特徵選擇解決樣本不均衡

一般情況下,樣本不均衡將導致特徵分布不均衡,但如果小類別樣本量具有一定的規模,意味著其特徵值的分布較為均衡,可通過選擇具有顯著性的特徵配合參與解決樣本不均衡問題。

樣本類別不均衡的問題

樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。面對樣本數量不均的情況,常用的方法如下 這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷 這種方式的弊端在於無法控制合適的權重比,需要多次嘗試 這種使用場景侷限,前置的知...

分類方法中樣本類別不均衡問題

大部分的分類學習方法都存在乙個基本的假設,訓練集中不同類別的訓練樣本數目差不多。如果不同類別的樣本數目差距很大,比如正類樣本有98個,而負類樣本只有2個,這種情況下學習出來的分類器只要一直返回正類的 結果,那很輕易的就能達到百分之九十八的正確率,但實際上這樣的模型並沒有什麼作用。欠抽樣,是指減少分類...

機器學習的樣本類別不均衡問題與解決方法

類別不平衡 class imbalance 就是指分類任務中,不同類別的訓練資料數目差別很大的情況。假設訓練樣例中正例數目m 負例數目m 那麼觀測機率為 m m 設乙個樣本 為正例的概率為p,則 為負例的概率為1 p,則分類器的 機率為p 1 p。通常情況下,我們假設訓練集是真實樣本總體的無偏取樣,...