示例如下:
=== detailed accuracy by class ===
tp rate fp rate precision recall f-measure roc area class
0.93 0.002 0.989 0.93 0.959 0.997 體育
0.93 0.01 0.939 0.93 0.935 0.97 城市
0.92 0.023 0.868 0.92 0.893 0.978 娛樂
0.93 0.005 0.969 0.93 0.949 0.991 房產
0.84 0.043 0.764 0.84 0.8 0.954 新聞
0.84 0.018 0.884 0.84 0.862 0.95 科技
0.83 0.028 0.83 0.83 0.83 0.951 財經
指標說明(參考最下面給出的混淆矩陣):
1、tp rate :true positive rate,tpr簡稱「
真正率」
,即被模型**為正的正樣本比率。
tpr = tp /(tp + fn)
正樣本**結果數 / 正樣本實際數。
以體育類為例,tpr=93/100= 0.93.
2、fp rate:false positive rate, fpr簡稱「
假正率」
,即被模型**為正的負樣本比率。
fpr = fp /(fp + tn)
被**為正的負樣本結果數 /負樣本實際數。以體育類為例,fpr=1/600= 0.0017≈0.002。
3、precision:精確度,即
被模型正確**的樣本與所有被**為正的樣本的比率。
以體育類為例,
被模型正確**的樣本數 = 93,
所有被**為正的樣本為
94,所以precision=93/94=0.98936≈0.989.
4、recall:召回率,即所有該類樣本被正確**的比例。
以體育類為例,總樣本數為100,正確**93個,召回率=0.93.
5、 f-measure:在weka中f-measure被定義為(2*precision*recall)/(precision*recall).
以體育類為例,f-measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.
6、roc area:roc曲線下的面積,即area under roc curve(auc)。這個指標來自醫學auc值介於0.5到1之間,值越大表示分類器越好。該指標與wilcoxon-mann-whitney test 統計指標等價。參見:
correctly classified instances 622 88.8571 %
incorrectly classified instances 78 11.1429 %
mean absolute error 0.2064
root mean squared error 0.3049
relative absolute error 84.2857 %
root relative squared error 87.1311 %
total number of instances 700
=== confusion matrix ===
a b c d e f g <-- classified as
93 0 1 0 5 1 0 | a = 體育
0 93 1 0 4 0 2 | b = 城市
0 0 92 0 6 2 0 | c = 娛樂
0 1 2 93 0 2 2 | d = 房產
0 2 7 0 84 1 6 | e = 新聞
1 1 2 0 5 84 7 | f = 科技
0 2 1 3 6 5 83 | g = 財經
分類效能度量指標
正確率 precision tp tp fp 給出的是 為正例的樣本中的真正正例的比例。召回率 recall tp tp fn 給出的是 為正例中的真實正例佔所有真實正例的比例。f 度量值 f score 組合precision和recall為乙個單獨的得分,被定義為精確度和召回率的調和平均數 2 ...
分類模型效果評估指標
1 準確率 精確率 召回率 f1 score 我們以分類演算法為例,假設班裡有50個同學,其中男生30個,女生20個,我們根據身高 體重 頭髮長度 聲音分貝等等特徵,想找到所有女生,比如已經有這樣乙個分類器了,得到結果如下 這裡我們是要找到所有女同學,故把女同學作為正樣本 positive 男同學作...
分類模型指標ks的含義
如果理解roc曲線的話,就很容易理解ks了。roc橫縱座標分別為fpr tpr。ks橫軸為閾值,縱軸為不同閾值下的tpr,fpr,ks值是max tpr fpr 即兩曲線相距最遠的距離 ks值含義 0.3 模型 性較好 0,2 0.3 模型可用 0 0.2 模型 能力較差 0 模型錯誤 徵信模型中,...