為了清晰的表述,首先定義一些用於描述不均衡樣本分類的一些概念,考慮乙個給定的含有 m 個樣本的訓練樣本集 s 即 |s|=m ,我們定義:
目前針對svm在不均衡樣本集中應用的研究主要包括兩個層面的內容:
演算法層面的處理方法
樣本層面的處理方法,利用適當的方法重構訓練樣本,以提高分類效能
將演算法和樣本處理相結合使用,更能提高分類器的效能
演算法層面的處理方法
樣本層面的處理方法
二類分類問題的評價指標是精確度(少數類查準率)與召回率(少數類樣本正確率),通常以關注的類為正類(少數類),其他類為負類,以下4種情況出現的總數分別記作:
少數類精確率(少數類查準率)定義為:pr
ecis
ion=
tptp
+fp少數類召回率(少數類樣本正確率)定義為:se
nsit
ivit
y=tp
tp+f
n
多數類召回率定義為:sp
ecif
icit
y=tn
fp+t
n
幾何平均正確率 g-mean: g=
sens
itiv
ity∗
spec
ific
ity−
−−−−
−−−−
−−−−
−−−−
−−√
效能指標g綜合考慮了少數類和多數類兩類樣本的分類效能,g的值是隨 sensitivity 和 specificity 的值在[0,1]區間裡單調遞增,由於分類器分類偏向於其中一類會影響另一類的分類正確率
此外還有
f 值,是精確率和召回率的調和均值,即 f-measure: f=
2∗se
nsit
ivit
y∗pr
ecis
ions
ensi
tivi
ty+p
reci
sion
精確率和召回率都很高時,
f}值也會高, 效能指標f考慮了少數類樣本的查全率和查準率,因此其中任何乙個值都能影響f值的大小。所以它能綜合體現出分類器對多數類和少數類的分類效果,但更側重於體現少數類樣本的分類效果
auc (area under the roc curve)則是另乙個有效地不均衡樣本分類效能評價手段,對於乙個給定的兩分類,roc曲線是利用多個(frp,tpr)對描述效能的方法,auc是這個曲線形成的面積
機器學習 不平衡資料集
不平衡資料集是指在解決分類問題時每個類別的樣本量不均衡的資料集。比如,在二分類中你有100個樣本其中80個樣本被標記為class 1,其餘20個被標記為class 2.這個資料集就是乙個不平衡資料集,class 1和class 2的樣本數量之比為4 1.不平衡資料集不僅存在於二分類問題而且存在於多分...
資料集類別不平衡問題
類別不平衡問題指分類任務中不同類別的訓練樣本數目差別很大的情況。一般來說,不平衡樣本會導致訓練模型側重樣本數目較多的類別,而 輕視 樣本數目較少類別,這樣模型在測試資料上的泛化能力就會受到影響。乙個例子,訓練集中有99個正例樣本,1個負例樣本。在不考慮樣本不平衡的很多情況下,學習演算法會使分類器放棄...
不平衡樣本對SVM的影響
樣本失衡會對svm的影響 假設正類樣本遠多於負類 1 線性可分的情況 假設真實資料集如下 由於負類樣本量太少,可能會出現下面這種情況 使得分隔超平面偏向負類。嚴格意義上,這種樣本不平衡不是因為樣本數量的問題,而是因為邊界點發生了變化。比如,原來負類的支援向量沒有了 2 線性不可分的情況 源資料以及理...