1.改變資料集規模
增加小類樣本+減少大類樣本
2.更換評價指標
準確度+召回率+f1值+roc曲線
3.資料集重取樣
小類樣本過取樣+大類樣本欠取樣
4.生產人工資料
smote過取樣演算法
5.更換分類演算法
決策樹往往在類別不均衡資料上表現不錯。
6.對模型懲罰
小類樣本資料增加權值,降低大類樣本的權值
7.業務理解角度
異常點檢測+變化趨勢檢測
8.整合方式
boosting演算法,訓練多個分類器,分類器進行聯合分類
其他角度:
設超大類中樣本的個數是極小類中樣本個數的l倍,那麼在隨機梯度下降(sgd,stochastic gradient descent)演算法中,每次遇到乙個極小類中樣本進行訓練時,訓練l次。
乙個相關的想法是,在神經網路中,隨機選擇部分隱藏層單元來繼續訓練。
不平衡資料集中的分類問題
五 演算法級別 六 整合級別 總結不平衡資料集的部分分類或分類問題,是機器學習中的乙個基本問題,受到廣泛的關注。主要從三個級別進行考慮 演算法級別 資料級別 混合級別 在二元不平衡資料集中,一類的例項數高於第二類的例項數。因此,第一類被稱為多數派,第二類被稱為少數派。因此,該資料集包含兩種例項 多數...
在分類中如何處理訓練集中不平衡問題
在很多機器學習任務中,訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡,為了使得學習達到更好的效果,因此需要解決該類別不平衡問題。什麼是類別不均衡問題 類別資料不均衡是分類任務中乙個典型的存在的問題。簡而言之,即資料集中,每個類別下的樣本數目相差很大。例如,在乙個...
在分類中如何處理訓練集中不平衡問題
在很多機器學習任務中,訓練集中可能會存在某個或某些類別下的樣本數遠大於另一些類別下的樣本數目。即類別不平衡,為了使得學習達到更好的效果,因此需要解決該類別不平衡問題。什麼是類別不均衡問題 類別資料不均衡是分類任務中乙個典型的存在的問題。簡而言之,即資料集中,每個類別下的樣本數目相差很大。例如,在乙個...