對weka 度量分類模型優劣指標的說明

2021-06-19 13:53:06 字數 2274 閱讀 8623

示例如下:

=== detailed accuracy by class ===

tp rate   fp rate   precision   recall  f-measure   roc area  class

0.93      0.002      0.989     0.93      0.959      0.997    體育

0.93      0.01       0.939     0.93      0.935      0.97     城市

0.92      0.023      0.868     0.92      0.893      0.978    娛樂

0.93      0.005      0.969     0.93      0.949      0.991    房產

0.84      0.043      0.764     0.84      0.8        0.954    新聞

0.84      0.018      0.884     0.84      0.862      0.95     科技

0.83      0.028      0.83      0.83      0.83       0.951    財經

指標說明(參考最下面給出的混淆矩陣):

1、tp rate :true positive rate,tpr簡稱「

真正率」

,即被模型**為正的正樣本比率。

tpr = tp /(tp + fn)

正樣本**結果數 / 正樣本實際數。

以體育類為例,tpr=93/100= 0.93.

2、fp rate:false positive rate, fpr簡稱「

假正率」

,即被模型**為正的負樣本比率。

fpr = fp /(fp + tn) 

被**為正的負樣本結果數 /負樣本實際數。以體育類為例,fpr=1/600= 0.0017≈0.002。

3、precision:精確度,即

被模型正確**的樣本與所有被**為正的樣本的比率。

以體育類為例,

被模型正確**的樣本數 = 93,

所有被**為正的樣本為

94,所以precision=93/94=0.98936≈0.989.

4、recall:召回率,即所有該類樣本被正確**的比例。  

以體育類為例,總樣本數為100,正確**93個,召回率=0.93.

5、 f-measure:在weka中f-measure被定義為(2*precision*recall)/(precision*recall).  

以體育類為例,f-measure=(2*0.989*0.93)/(0.989+0.93)=1.84/1.92=0.958.

6、roc area:roc曲線下的面積,即area under roc curve(auc)。這個指標來自醫學auc值介於0.5到1之間,值越大表示分類器越好。該指標與wilcoxon-mann-whitney test 統計指標等價。參見:

correctly classified instances         622               88.8571 %

incorrectly classified instances        78               11.1429 %

mean absolute error                      0.2064

root mean squared error                  0.3049

relative absolute error                 84.2857 %

root relative squared error             87.1311 %

total number of instances              700     

=== confusion matrix ===

a  b  c  d  e  f  g   <-- classified as

93  0  1  0  5  1  0 |  a = 體育

0 93  1  0  4  0  2 |  b = 城市

0  0 92  0  6  2  0 |  c = 娛樂

0  1  2 93  0  2  2 |  d = 房產

0  2  7  0 84  1  6 |  e = 新聞

1  1  2  0  5 84  7 |  f = 科技

0  2  1  3  6  5 83 |  g = 財經

分類效能度量指標

正確率 precision tp tp fp 給出的是 為正例的樣本中的真正正例的比例。召回率 recall tp tp fn 給出的是 為正例中的真實正例佔所有真實正例的比例。f 度量值 f score 組合precision和recall為乙個單獨的得分,被定義為精確度和召回率的調和平均數 2 ...

分類模型效果評估指標

1 準確率 精確率 召回率 f1 score 我們以分類演算法為例,假設班裡有50個同學,其中男生30個,女生20個,我們根據身高 體重 頭髮長度 聲音分貝等等特徵,想找到所有女生,比如已經有這樣乙個分類器了,得到結果如下 這裡我們是要找到所有女同學,故把女同學作為正樣本 positive 男同學作...

分類模型指標ks的含義

如果理解roc曲線的話,就很容易理解ks了。roc橫縱座標分別為fpr tpr。ks橫軸為閾值,縱軸為不同閾值下的tpr,fpr,ks值是max tpr fpr 即兩曲線相距最遠的距離 ks值含義 0.3 模型 性較好 0,2 0.3 模型可用 0 0.2 模型 能力較差 0 模型錯誤 徵信模型中,...