**:
對於分類演算法,常用的評價指標有:
(1)precision
(2)recall
(3)f-score
(4)accuracy
(5)roc
(6)auc
ps:不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。
1.混淆矩陣
混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例項的真實資訊。矩陣中的每一行代表例項的**類別,每一列代表例項的真實類別。
圖1 混淆矩陣
如圖1所示,在混淆矩陣中,包含以下四種資料:
a、真正(true positive ,tp):被模型**為正的正樣本
b、假正(false positive ,fp):被模型**為正的負樣本
c、假負(false negative ,fn):被模型**為負的正樣本
d、真負(true negative ,tn):被模型**為負的負樣本
根據這四種資料,有四個比較重要的比率,其中tpr和tnr更為常用:
2.評價指標
1)(precision):p = tp/(tp+fp),精確度
2)(recall):r = tp/(tp+fn),即真正率
3)f-score:precision和recall的調和平均值, 更接近於p, r兩個數較小的那個:f=2* p* r/(p + r)
4)(aaccuracy): 分類器對整個樣本的判定能力,即將正的判定為正,負的判定為負: a = (tp + tn)/(tp + fn + fp + tn)
5)roc(receiver operating characteristic):roc的主要分析工具是乙個畫在roc空間的曲線——roc curve,橫座標為false positive rate(fpr),縱座標為true positive rate(tpr)。
如何畫roc曲線?
對於二值分類問題,例項的值往往是連續值,通過設定乙個閾值,將例項分類到正類或者負類(比如大於閾值劃分為正類)。因此,可以變化閾值,根據不同的閾值進行分類,根據分類結果計算得到roc空間中相應的點,連線這些點就形成roc curve。roc curve經過(0,0) (1,1),實際上(0,0)和(1,1)連線形成的roc curve實際上代表的是乙個隨機分類器。一般情況下,這個曲線都應該處於(0,0)和(1,1)連線的上方,如圖2所示。
圖2 roc曲線
roc上幾個關鍵點的解釋:
(tpr=0,fpr=0):把每個例項都**為負類的模型
(tpr=1,fpr=1):把每個例項都**為正類的模型
(tpr=1,fpr=0):理想模型,全部**正確
(tpr=0,fpr=1):最差模型,全部**錯誤
乙個好的分類模型應該盡可能靠近圖形的左上角,而乙個隨機猜測模型應位於連線點(tpr=0,fpr=0)和(tpr=1,fpr=1)的主對角線上。
既然已經這麼多評價標準,為什麼還要使用roc和auc呢?
因為roc曲線有個很好的特性:當測試集中的正負樣本的分布變化的時候,roc曲線能夠保持不變。在實際的資料集中經常會出現類不平衡(class imbalance)現象,即負樣本比正樣本多很多(或者相反),而且測試資料中的正負樣本的分布也可能隨著時間變化。
6)auc(area under roc curve)
auc的值就是處於roc curve下方的那部分面積的大小。通常,auc的值介於0.5到1.0之間,較大的auc代表了較好的performance。如果模型是完美的,那麼它的aug = 1,如果模型是個簡單的隨機猜測模型,那麼它的aug = 0.5,如果乙個模型好於另乙個,則它的曲線下方面積相對較大。
分類演算法中常用的評價指標
分類演算法中常用的評價指標 來自網路,備份勿忘!對於分類器 分類演算法 評價指標主要有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc 1.首先,介紹混淆矩陣的概念。混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例項的真實資訊...
分類演算法中常用的評價指標
labeled as positive labeled as negative predicted as positive true positive tp false positive fp predicted as negative false negative fn true negative...
分類演算法中常用的評價指標
對於分類演算法,常用的評價指標有 1 precision 2 recall 3 f score 4 accuracy 5 roc 6 auc ps 不建議翻譯成中文,尤其是precision和accuracy,容易引起歧義。1.混淆矩陣 混淆矩陣是監督學習中的一種視覺化工具,主要用於比較分類結果和例...