問題描述:
工作中處理分類問題時,很多情況是多個分類類別的資料分布不平衡,有的類別的資料量可能遠小於其他類別。並且在實驗中發現,進行分類模型訓練時,各類別的資料比例不同對最終模型分類效果的影響很大。
解決方法:
對於這類問題,主要從資料和學習兩個角度進行處理。訓練集大小,類優先順序,誤分代價幾個重要影響因素需要重點處理。
從資料角度:訓練集重取樣,訓練集劃分;
從學習演算法角度:分類器整合,代價敏感學習,特徵選擇方法;
重取樣:隨機向上/向下取樣;smote取樣
整合演算法:smoteboost,adacost
不平衡分類評價指標:
傳統的f1值,準確率p,召回率r;
f=(1+b)^2.p.r/(b^2.r+p)
g-mean=sqrt(tp/(tp+fn)*tn/(tn+fp))
平均準確率ba = (tp/(tp+fn)+tn/(tn+fp) )/2
...
資料不平衡分類問題
不平衡分類問題是指訓練樣本數量在類間分布不平衡的模式分類問題。在實際應用中,不平衡問題很常見。有些問題其原始資料的分布就存在不平衡,如通過衛星雷達檢測海面石油油汙 監測信用卡非法交易 發掘基因序列中編碼資訊以及醫學資料分類等。所謂的資料不平衡是指 資料集樣本類別極不均衡。不平衡資料的學習即需要在如此...
不平衡資料分類方法總結
傳統的分類演算法在面向不平衡資料時,效果一般,尤其是對少數類的判斷準確率很低,而現實生活中少數類往往是比多數類更有價值的。例如,網路安全 中,可能1000次通訊只有幾次是真的網路攻擊,但是將正常通訊判斷為攻擊和將攻擊判斷為正常通訊帶來的後果是完全不同的,我們其實更在意判斷是網路攻擊的準確率。針對不平...
處理不平衡資料的方法
處理不平衡資料我們可以採用欠 下 取樣和過 上 取樣的方法。欠 下 取樣 就是從資料量較多那類樣本中,隨機選出與資料較少那類樣本數量相同的樣本,最終組成正負樣本數量相同的樣本集。過 上 取樣 對樣本中數量較少的那類樣本生成演算法補齊,使之達到與較多那類樣本相匹配的數量,如smoto演算法。合成新樣本...