分類器效能度量

2022-08-02 05:54:09 字數 1269 閱讀 4139

真陽性tp:**為正樣本,實際也為正樣本的特徵數

假陽性fp:**為正樣本,實際為負樣本的特徵數

真陰性tn:**為負樣本,實際也為負樣本的特徵數

假陰性fn:**為負樣本,實際為正樣本的特徵數

正確率/精確率   tp/(tp+fp) = p

覆蓋率/召回率   tp/(tp+fn) = r

特異性               tn/(fp+tn) = s

靈敏度               tp/(tp+fn) = tpr   是所有實際正例中,正確識別的正例比例

1-特異度            fp/(fp+tn) =  fpr  是實際負例中,錯誤得識別為正例的負例比例

有時也用乙個f1值來綜合評估精確率和召回率,它是精確率和召回率的調和均值。當精確率和召回率都高時,f1值也會高。嚴格的數學定義如下

f-measure        2/f = 1/p + 1/r

有時候我們對精確率和召回率並不是一視同仁,比如有時候我們更加重視精確率。我們用乙個引數β

'>β

β來度量兩者之間的關係。如果β

>

1'>β>1

β>1, 召回率有更大影響,如果β

<

1'>β<1

β<1,精確率有更大影響。自然,當β=1

'>β=1

β=1的時候,精確率和召回率影響力相同,和f1形式一樣。含有度量引數β

'>β

β的f1我們記為f

β'>fβ

fβ, 嚴格的數學定義如下

以tpr為y軸,以fpr為x軸,我們就直接得到了roc曲線。從fpr和tpr的定義可以理解,tpr越高,fpr越小,我們的模型和演算法就越高效。也就是畫出來的roc曲線越靠近左上越好。如下圖左圖所示。從幾何的角度講,roc曲線下方的面積越大越大,則模型越優。所以有時候我們用roc曲線下的面積,即auc(area under curve)值來作為演算法和模型好壞的標準。

以精確率為y軸,以召回率為x軸,我們就得到了pr曲線。仍然從精確率和召回率的定義可以理解,精確率越高,召回率越高,我們的模型和演算法就越高效。也就是畫出來的pr曲線越靠近右上越好。如上圖右圖所示。

使用roc曲線和pr曲線,我們就能很方便的評估我們的模型的分類能力的優劣了。

參考:

分類器效能度量

一般情況下,分類器的好壞是通過錯誤率來衡量的。錯誤率指的是在測試資料中錯誤分類的樣本所佔比例。然而,這樣進行度量掩蓋了樣例如何被分錯的原因。三類問題混淆矩陣示例 當該矩陣中非對角元素均為0,那麼就會得到完美的分類器。二分類混淆矩陣 在分類中,當某個類別的重要性高於其他類別時,可以利用上述定義來得到比...

分類器的效能度量

一.評估方法 1.留出法 留出法 直接將資料集d劃分為兩個互斥的集合,其中乙個集合作為訓練集s,另乙個作為測試集t,在s上訓練處模型後,用t來評估其測試誤差,作為對泛化誤差的估計。2.交叉驗證法 交叉驗證法 先將資料集d劃分為k個大小相似的互斥子集,每個子集都盡可能保持資料分布的一致性,即從d中通過...

分類效能度量

錯誤率是分類錯誤的樣本數佔總樣本數的比例 精度是分類正確的樣本數佔總樣本數的比例 查準率p 真正例 為正的樣本數 tp tp fp 是指挑出來的東西裡,有多少是好的。查全率r 真正例 實際為正的樣本數 tp tp fn 是指全部的好東西,挑出來了多大比例。p r圖 查全率為橫軸,查準率為縱軸,包線在...