資料樣本類別不平衡

2021-09-23 14:11:12 字數 519 閱讀 1403

準確度(accuracy)

(注意與精度區分)

對於二分類問題來說,正負樣例比相差較大為99:1,模型更容易被訓練成**較大佔比的類別。因為模型只需要對每個樣例按照0.99的概率**正類,該模型就能達到99%的準確率。

1. 上取樣:

smote過取樣方法,基於插值來為少數類合成新的樣本(構建新的樣本)。

2. 下取樣:

隨機丟棄一部分負樣本。

1. 使用更有說服力的評價指標

準確率在類別不平衡資料上,說服力比較差;可考慮auc、f1值等。

1. 代價敏感方法—對模型採用懲罰

通過增加分錯小樣本類別的權重,降低分對的大樣本類別的權重,使得分類器格外關注小樣本類別資料.

2. 分類器整合

使用能夠解決資料傾斜的模型,例如,使用xgboost模型。

類別不平衡問題

詳解類別不平衡問題 盧總 類別不平衡問題的方法彙總 為少數類生成新樣本 smote borderline smote adasyn 整合方法 演算法層面 focal loss 損失函式的權重調整 閾值移動 評價指標 非均衡資料處理 如何學習?隨機降取樣 bagging是萬金油。屬於bagging 假...

類別不平衡資料處理

1 不平衡資料處理教程 1 2 3 4 2 不平衡資料分類演算法 1 over sampling 隨機過取樣 smote adasyn 臨界smote演算法 svm smote等。2 under sampling 隨機欠取樣 enn renn allknn等。3 combination smotet...

資料集類別不平衡問題

類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。一般來說,不平衡樣本會導致訓練模型側重樣本數目較多的類別,而 輕視 樣本數目較少類別,這樣模型在測試資料上的泛化能力就會受到影響。乙個例子,訓練集中有99個正例樣本,1個負例樣本。在不考慮樣本不平衡的很多情況下,學習演算法會使分類器放棄...