分類演算法中常用的評價指標

2021-07-27 15:28:55 字數 2684 閱讀 1884

**: 分類演算法中常用的評價指標

來自網路,備份勿忘!

對於分類器(分類演算法),評價指標主要有:1)precision;2)recall;3)f-score;4)accuracy;5)roc;6)auc

1.首先,介紹混淆矩陣的概念。

混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例項的真實資訊。矩陣中的每一行代表例項的**類別,每一列代表例項的真實類別。

1混淆矩陣

如圖

1所示,在混淆矩陣中,每乙個例項可以劃分為以下四種型別之一:

a、真正

(true positive , tp

):被模型**為正的正樣本

b、假正

(false positive , fp

):被模型**為正的負樣本

c、假負

(false negative , fn

):被模型**為負的正樣本

d、真負

(true negative , tn

):被模型**為負的負樣本

2.

然後,由混淆矩陣計算評價指標。

1)精確度

(precision):p = tp/(tp+fp)

2)召回率

(recall):r = tp/(tp+fn)

,即真正率

3)f-score:查準率和查全率的調和平均值

,更接近於

p, r

兩個數較小的那個

:f=2* p* r/(p + r)

4)準確率

(aaccuracy):

分類器對整個樣本的判定能力

,即將正的判定為正,負的判定為負

:a = (tp + tn)/

(tp + fn + fp + tn)

5)roc(receiver operating characteristic):

roc的主要分析工具是乙個畫在

roc空間的曲線

——roc curve

,橫座標為

false positive rate

(fpr),

縱座標為

true positive rate

(tpr)。

對於二值分類問題,例項的值往往是連續值,通過設定乙個閾值,將例項分類到正類或者負類(比如大於閾值劃分為正類)。因此,可以變化閾值,根據不同的閾值進行分類,根據分類結果計算得到

roc空間中相應的點,連線這些點就形成

roc curve

。roc curve

經過(0,0) (1,1)

,實際上

(0,0)

和(1,1)

連線形成的

roc curve

實際上代表的是乙個隨機分類器。一般情況下,這個曲線都應該處於

(0,0)

和(1,1)

連線的上方,如圖

2所示。

2 roc

曲線(tpr=0,fpr=0)

:把每個例項都**為負類的模型

(tpr=1,fpr=1)

:把每個例項都**為正類的模型

(tpr=1,fpr=0)

:理想模型

乙個好的分類模型應該盡可能靠近圖形的左上角,而乙個隨機猜測模型應位於連線點

(tpr=0,fpr=0)和

(tpr=1,fpr=1)

的主對角線上。

既然已經這麼多評價標準,為什麼還要使用

roc和

auc呢?因為

roc曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,

roc曲線能夠保持不變。在實際的資料集中經常會出現類不平衡

(class imbalance)

現象,即負樣本比正樣本多很多

(或者相反

),而且測試資料中的正負樣本的分布也可能隨著時間變化。

6)auc(area under roc curve)

auc的值就是處於

roc curve

下方的那部分面積的大小。通常,

auc的值介於

0.5到

1.0之間,較大的

auc代表了較好的

performance

。如果模型是完美的,那麼它的

aug = 1

,如果模型是個簡單的隨機猜測模型,那麼它的

aug = 0.5

,如果乙個模型好於另乙個,則它的曲線下方面積相對較大。

評價指標 分類演算法中常用的評價指標

對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...

分類演算法中常用的評價指標

labeled as positive labeled as negative predicted as positive true positive tp false positive fp predicted as negative false negative fn true negative...

分類演算法中常用的評價指標

對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...