分類器的效能度量

2021-07-26 20:58:54 字數 886 閱讀 2025

一. 評估方法

1.留出法

「留出法」直接將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集s,另乙個作為測試集t,在s上訓練處模型後,用t來評估其測試誤差,作為對泛化誤差的估計。

2.交叉驗證法

「交叉驗證法」先將資料集d劃分為k個大小相似的互斥子集,每個子集都盡可能保持資料分布的一致性,即從d中通過分層取樣得到,然後每次用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集;這樣就可獲得k組訓練/測試集,從而可進行k次訓練和測試,最終返回的是這k個測試結果的均值。

二. 效能度量

真實情況

**結果正例

**結果反例

正例tp(真正例)

fn(反正例)

反例fp(假正例)

tn(真反例)

1.所謂的查準率p和查全率r分別定義為:p=

tptp

+fp,

r=tp

tp+f

n 2. f1:1f

1=12

(1p+

1r)

3.roc和auc

橫軸為假正例率,縱軸為真正例率,曲線為roc,auc為曲線下方面積,面積越大說明分類器的效能越優。

為什麼使用roc和auc評價分類器

既然已經這麼多標準,為什麼還要使用roc和auc呢?因為roc曲線有個很好的特性:當測試集中的正負樣本的分布變換的時候,roc曲線能夠保持不變。在實際的資料集中經常會出現樣本類不平衡,即正負樣本比例差距較大,而且測試資料中的正負樣本也可能隨著時間變化。

分類器效能度量

一般情況下,分類器的好壞是通過錯誤率來衡量的。錯誤率指的是在測試資料中錯誤分類的樣本所佔比例。然而,這樣進行度量掩蓋了樣例如何被分錯的原因。三類問題混淆矩陣示例 當該矩陣中非對角元素均為0,那麼就會得到完美的分類器。二分類混淆矩陣 在分類中,當某個類別的重要性高於其他類別時,可以利用上述定義來得到比...

分類器效能度量

真陽性tp 為正樣本,實際也為正樣本的特徵數 假陽性fp 為正樣本,實際為負樣本的特徵數 真陰性tn 為負樣本,實際也為負樣本的特徵數 假陰性fn 為負樣本,實際為正樣本的特徵數 正確率 精確率 tp tp fp p 覆蓋率 召回率 tp tp fn r 特異性 tn fp tn s 靈敏度 tp ...

分類效能度量

錯誤率是分類錯誤的樣本數佔總樣本數的比例 精度是分類正確的樣本數佔總樣本數的比例 查準率p 真正例 為正的樣本數 tp tp fp 是指挑出來的東西裡,有多少是好的。查全率r 真正例 實際為正的樣本數 tp tp fn 是指全部的好東西,挑出來了多大比例。p r圖 查全率為橫軸,查準率為縱軸,包線在...