分類器效能度量

真陽性tp：**為正樣本，實際也為正樣本的特徵數

假陽性fp：**為正樣本，實際為負樣本的特徵數

真陰性tn：**為負樣本，實際也為負樣本的特徵數

假陰性fn：**為負樣本，實際為正樣本的特徵數

正確率/精確率 tp/(tp+fp) = p

覆蓋率/召回率 tp/(tp+fn) = r

特異性 tn/(fp+tn) = s

靈敏度 tp/(tp+fn) = tpr 是所有實際正例中，正確識別的正例比例

1-特異度 fp/(fp+tn) = fpr 是實際負例中，錯誤得識別為正例的負例比例

有時也用乙個f1值來綜合評估精確率和召回率，它是精確率和召回率的調和均值。當精確率和召回率都高時,f1值也會高。嚴格的數學定義如下

f-measure 2/f = 1/p + 1/r

有時候我們對精確率和召回率並不是一視同仁，比如有時候我們更加重視精確率。我們用乙個引數β

'>β

β來度量兩者之間的關係。如果β

1'>β>1

β>1, 召回率有更大影響，如果β

1'>β<1

β<1,精確率有更大影響。自然，當β=1

'>β=1

β=1的時候，精確率和召回率影響力相同，和f1形式一樣。含有度量引數β

'>β

β的f1我們記為f

β'>fβ

fβ, 嚴格的數學定義如下

以tpr為y軸，以fpr為x軸，我們就直接得到了roc曲線。從fpr和tpr的定義可以理解，tpr越高，fpr越小，我們的模型和演算法就越高效。也就是畫出來的roc曲線越靠近左上越好。如下圖左圖所示。從幾何的角度講，roc曲線下方的面積越大越大，則模型越優。所以有時候我們用roc曲線下的面積，即auc（area under curve）值來作為演算法和模型好壞的標準。

以精確率為y軸，以召回率為x軸，我們就得到了pr曲線。仍然從精確率和召回率的定義可以理解，精確率越高，召回率越高，我們的模型和演算法就越高效。也就是畫出來的pr曲線越靠近右上越好。如上圖右圖所示。

使用roc曲線和pr曲線，我們就能很方便的評估我們的模型的分類能力的優劣了。

參考：

分類器效能度量

一般情況下，分類器的好壞是通過錯誤率來衡量的。錯誤率指的是在測試資料中錯誤分類的樣本所佔比例。然而，這樣進行度量掩蓋了樣例如何被分錯的原因。三類問題混淆矩陣示例當該矩陣中非對角元素均為0，那麼就會得到完美的分類器。二分類混淆矩陣在分類中，當某個類別的重要性高於其他類別時，可以利用上述定義來得到比...

分類器的效能度量

一.評估方法 1.留出法留出法直接將資料集d劃分為兩個互斥的集合，其中乙個集合作為訓練集s，另乙個作為測試集t，在s上訓練處模型後，用t來評估其測試誤差，作為對泛化誤差的估計。2.交叉驗證法交叉驗證法先將資料集d劃分為k個大小相似的互斥子集，每個子集都盡可能保持資料分布的一致性，即從d中通過...

分類效能度量

錯誤率是分類錯誤的樣本數佔總樣本數的比例精度是分類正確的樣本數佔總樣本數的比例查準率p 真正例為正的樣本數 tp tp fp 是指挑出來的東西裡，有多少是好的。查全率r 真正例實際為正的樣本數 tp tp fn 是指全部的好東西，挑出來了多大比例。p r圖查全率為橫軸，查準率為縱軸，包線在...

分類器效能度量

分類器效能度量

分類器的效能度量

分類效能度量

相關推薦