原版:
一、不平衡問題
(1)不平衡資料
例如:乙個產品生產的不合格產品數量會遠低於合格產品數量。信用卡欺詐的檢測中,合法交易遠遠多於欺詐交易。
這時候,準確率的度量會出現一些問題,因為她把每個類都看得同等重要。
例如,1%的信用卡交易是欺詐行為,則**每個交易都是合法的模型有99%的準確率,它也可能檢測不到任何欺詐交易。
(2)混淆矩陣
在不平衡資料中,稀有模擬較有意義,對於二元分類,稀有類通常記為正類,而多數類被認為是負類。下面顯示了混淆矩陣:
真正(true positive,tp):++真正率(true positive rate,tpr)或靈敏度(sensitivity): tp假正(false positive,fp):-+
真負(true negative,tn):–
假負(false negative,fn):+-
r=tp
tp+f
n=(+
+)(+
+)+(
+−)
真負率(true negative rate,tnr)或特指度(specificity): tn
r=tn
tn+f
p=(−
−)(−
−)+(
−+)
假正率(false positive rate,fpr): fp
r=fp
tn+f
p=(+
−)(−
−)+(
−+)
假負率(false negative rate,fnr): fn
r=fn
fn+t
p=(−
+)(−
+)+(
++)
精度(precision): p=
tptp
+fp=
(++)
(++)
+(−+
) 召回率(recall)即為真正率: r=
(tp)
(tp)
+(fn
)=(+
+)(+
+)+(
+−)
精度和召回率是很重要的度量量,稱為 f1 統計量: f1
=2rp
r+p=
2×tp
2×tp
+fp+
fn=2
1r+1
p f1 是召回率和精度的調和平均數,f1 趨近於它們之間的較小值,因此,乙個高的 f1 確保精度和召回率都高。
fb 的公式: fb
=(b2
+1)r
pr+b
2p=(
b2+1
)1r+
b2p
低的 b 使得 fb 更加接近精度,高的 b 使得 fb 更加接近召回率。
(3)接受者操作曲線(roc)
是真正率和假正率取折中的一種圖形化方法。真正率為 y 軸,假正率為 x 軸。roc的幾個關鍵點:
(tpr=0,fpr=0):把所有的都**為負乙個好的分類器,盡量靠近左上角,隨機猜想為對角線。(tpr=1,fpr=1):把所有的都**為正
(tpr=1,fpr=0):理想模型。只要是正的,都**為正。
產生roc曲線方法:
(4)代價敏感學習
模型 m 的代價: ct
(m)=
tp×c
(+,+
)+fp
×c(−
,+)+
fn×c
(+,1
)+fn
×c(−
,−)
如下是乙個代價矩陣:
它可以把決策邊界擴充套件:
對於代價矩陣,若 c(+,+)=c(-,-)=0 的情況,分類正確不需要代價,則:
求解可以得到決策邊界。
基於抽樣方法
對於樣本進行處理,假設有100個正樣本和1000個負樣本。
不充分抽樣(udersampling):取和正樣本一樣數量的負樣本,取100個負樣本,形成訓練集。
過分抽樣(oversampling):將正樣本複製,或者重複抽樣,使得正樣本的數量和負樣本一樣1000個。
二、多類問題
1、one-vs-rest 方法。將多類問題分解為 k 個二類問題,將屬於yi的歸為正類,而其他類被分為負類,依次進行。例子:2、one-vs-one 方法。它構建k(k-1)/2 個二分類器,每乙個分類器用來區分一對類 (yi,yj) ,當為類 (yi,yj) 建立分類器的時候,將不屬於 (yi,yj) 的樣本忽略掉。
使用上述兩種方法建模後,可能出現分類平局。另一種方法,將輸出轉變為概率估計,將例項給予高概率的類。
糾錯輸出編碼
糾錯輸出編碼(error-correcting output coding,ecoc):一種處理多分類更加魯棒的方法,給予每個類乙個**字,對於每個可能**錯誤的,選取距離**字最近的那一類。
多分類學習 類別不平衡
最經典的拆分策略有三種 一對一 ovo 一對其餘 ovr 多對多 mvm ovo 將n個類別兩兩匹配,從而產生n n 1 2個二分類器。將新樣本提交給所有的分類器,得到了n n 1 2個結果,最終結果通過投票產生。n比較大的時候,代價還是挺高。ovr 每次將乙個類作為樣例的正例,其他所有均作為反例,...
資料不平衡分類問題
不平衡分類問題是指訓練樣本數量在類間分布不平衡的模式分類問題。在實際應用中,不平衡問題很常見。有些問題其原始資料的分布就存在不平衡,如通過衛星雷達檢測海面石油油汙 監測信用卡非法交易 發掘基因序列中編碼資訊以及醫學資料分類等。所謂的資料不平衡是指 資料集樣本類別極不均衡。不平衡資料的學習即需要在如此...
不平衡分類問題處理方法
問題描述 工作中處理分類問題時,很多情況是多個分類類別的資料分布不平衡,有的類別的資料量可能遠小於其他類別。並且在實驗中發現,進行分類模型訓練時,各類別的資料比例不同對最終模型分類效果的影響很大。解決方法 對於這類問題,主要從資料和學習兩個角度進行處理。訓練集大小,類優先順序,誤分代價幾個重要影響因...