機器學習建模分類問題裡,各個類別樣本量差異較大時,就會出現類別不均衡問題。e.g.如果有99999個無症狀病例,1個有症狀病例,即使訓練的學習器將所有樣本識別成無症狀病例,準確率也高達99.9%;但是這樣的學習器沒有任何價值,無任何鑑別有症狀病例的價值。
以下假設正例樣本數遠小於負例樣本數:
(1)欠取樣
欠取樣的代表做法是利用整合學習機制,將反例劃分成若干個集合 供不同學習器使用。
(2)過取樣
過取樣不能簡單地對正例樣本進行重複取樣,否則會導致嚴重的過擬合。過取樣的代表性演算法為smote演算法,即對訓練集裡的正例進行插值=>產生額外的正例。
(3)閾值移動
通常,用分類器**出的y
yy值與乙個閾值進行比較,即y
>
0.5y>0.5
y>0.
5判別為正例,否則為負例。y
yy是正例的概率,則正例、負例可能性的比值為y1−
y\displaystyle\frac
1−yy。
如果正例和負例可能性相同,即閾值為0.5,則分類器決策規則為
y 1−
y>1,
預測為正
例\displaystyle\frac>1,**為正例
1−yy
>1,
**為正
例如果正例數為m
+m^+
m+,負例為m
−m^-
m−,則觀測機率是m+m
−\displaystyle\frac
m−m+
,則分類器決策規則為
y 1−
y>m+
m−,預
測為正例
\displaystyle\frac>\frac,**為正例
1−yy
>m−
m+,
**為正
例即y ′1
−y′=
y1−y
×m−m
+>
1\displaystyle\frac}}=\frac\times\frac>1
1−y′y′
=1−
yy×
m+m−
>
1
樣本類別不均衡的問題
樣本類別數量不均衡主要出現在分類建模的情況。通常為某類別的樣本數量較少,導致模型忽略了小樣本的特徵,由大樣本主導。面對樣本數量不均的情況,常用的方法如下 這種方法要麼丟失資料資訊,要麼會導致較少樣本共線性,存在明顯缺陷 這種方式的弊端在於無法控制合適的權重比,需要多次嘗試 這種使用場景侷限,前置的知...
多標籤 類別不均衡分類問題
最近老是遇到多標籤分類問題?加之自己對loss的理解還是不夠到位 自己還是對loss理解不夠,乾脆記錄下來了,以後遇到乙個記錄乙個 nn.crossentropyloss ignore index ignored index 計算的是qa中star position的loss,同理end posit...
weka分類器怎麼設定類別 類別不均衡問題
類別不均衡就是指分類任務中不同類別的訓練樣例數目差別很大的情況。一 應用場景 二 演算法 如果不同類別的訓練樣例數目稍有差別,通常影響不大,但若差別很大,則會對學習過程造成困擾。例如有998個反例,2個正例,那麼學習方法只需要返回乙個永遠將新樣本 為反例的學習器,就能達到99.8 的精度。但是這樣的...