**: 分類演算法中常用的評價指標
來自網路,備份勿忘!
對於分類器(分類演算法),評價指標主要有:1)precision;2)recall;3)f-score;4)accuracy;5)roc;6)auc
1.首先,介紹混淆矩陣的概念。
混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例項的真實資訊。矩陣中的每一行代表例項的**類別,每一列代表例項的真實類別。
圖
1混淆矩陣
如圖
1所示,在混淆矩陣中,每乙個例項可以劃分為以下四種型別之一:
a、真正
(true positive , tp
):被模型**為正的正樣本
b、假正
(false positive , fp
):被模型**為正的負樣本
c、假負
(false negative , fn
):被模型**為負的正樣本
d、真負
(true negative , tn
):被模型**為負的負樣本
2.
然後,由混淆矩陣計算評價指標。
1)精確度
(precision):p = tp/(tp+fp)
2)召回率
(recall):r = tp/(tp+fn)
,即真正率
3)f-score:查準率和查全率的調和平均值
,更接近於
p, r
兩個數較小的那個
:f=2* p* r/(p + r)
4)準確率
(aaccuracy):
分類器對整個樣本的判定能力
,即將正的判定為正,負的判定為負
:a = (tp + tn)/
(tp + fn + fp + tn)
5)roc(receiver operating characteristic):
roc的主要分析工具是乙個畫在
roc空間的曲線
——roc curve
,橫座標為
false positive rate
(fpr),
縱座標為
true positive rate
(tpr)。
對於二值分類問題,例項的值往往是連續值,通過設定乙個閾值,將例項分類到正類或者負類(比如大於閾值劃分為正類)。因此,可以變化閾值,根據不同的閾值進行分類,根據分類結果計算得到
roc空間中相應的點,連線這些點就形成
roc curve
。roc curve
經過(0,0) (1,1)
,實際上
(0,0)
和(1,1)
連線形成的
roc curve
實際上代表的是乙個隨機分類器。一般情況下,這個曲線都應該處於
(0,0)
和(1,1)
連線的上方,如圖
2所示。
圖
2 roc
曲線(tpr=0,fpr=0)
:把每個例項都**為負類的模型
(tpr=1,fpr=1)
:把每個例項都**為正類的模型
(tpr=1,fpr=0)
:理想模型
乙個好的分類模型應該盡可能靠近圖形的左上角,而乙個隨機猜測模型應位於連線點
(tpr=0,fpr=0)和
(tpr=1,fpr=1)
的主對角線上。
既然已經這麼多評價標準,為什麼還要使用
roc和
auc呢?因為
roc曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,
roc曲線能夠保持不變。在實際的資料集中經常會出現類不平衡
(class imbalance)
現象,即負樣本比正樣本多很多
(或者相反
),而且測試資料中的正負樣本的分布也可能隨著時間變化。
6)auc(area under roc curve)
auc的值就是處於
roc curve
下方的那部分面積的大小。通常,
auc的值介於
0.5到
1.0之間,較大的
auc代表了較好的
performance
。如果模型是完美的,那麼它的
aug = 1
,如果模型是個簡單的隨機猜測模型,那麼它的
aug = 0.5
,如果乙個模型好於另乙個,則它的曲線下方面積相對較大。
評價指標 分類演算法中常用的評價指標
對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...
分類演算法中常用的評價指標
labeled as positive labeled as negative predicted as positive true positive tp false positive fp predicted as negative false negative fn true negative...
分類演算法中常用的評價指標
對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...