幾個常用術語
1) true positives(tp): 被正確地劃分為正例的個數,即實際為正例且被分類器劃分為正例的例項數;
2) false positives(fp): 被錯誤地劃分為正例的個數,即實際為負例但被分類器劃分為正例的例項數;
3) false negatives(fn):被錯誤地劃分為負例的個數,即實際為正例但被分類器劃分為負例的例項數;
4) true negatives(tn): 被正確地劃分為負例的個數,即實際為負例且被分類器劃分為負例的例項數。
正確率(accuracy)
正確率是我們最常見的評價指標,accuracy = (tp+tn)/(p+n),正確率是被分對的樣本數在所有樣本數中的佔比,通常來說,正確率越高,分類器越好。
錯誤率(error rate)
錯誤率則與正確率相反,描述被分類器錯分的比例,error rate = (fp+fn)/(p+n),對某乙個例項來說,分對與分錯是互斥事件,所以accuracy =1 - error rate。
靈敏度(sensitivity)
sensitivity = tp/p,表示的是所有正例中被分對的比例,衡量了分類器對正例的識別能力。
特異性(specificity)
specificity = tn/n,表示的是所有負例中被分對的比例,衡量了分類器對負例的識別能力。
精度(precision)
precision=tp/(tp+fp),精度是精確性的度量,表示被分為正例的示例中實際為正例的比例。
召回率(recall)
召回率是覆蓋面的度量,度量有多個正例被分為正例,recall=tp/(tp+fn)=tp/p=sensitivity,可以看到召回率與靈敏度是一樣的。
其他評價指標
計算速度:分類器訓練和**需要的時間;
魯棒性:處理缺失值和異常值的能力;
可擴充套件性:處理大資料集的能力;
可解釋性:分類器的**標準的可理解性,像決策樹產生的規則就是很容易理解的,而神經網路的一堆引數就不好理解,我們只好把它看成乙個黑盒子。
精度和召回率反映了分類器分類效能的兩個方面。如果綜合考慮查準率與查全率,可以得到新的評價指標f1-score,也稱為綜合分類率:f1=
2×pr
ecis
ion×
reca
llpr
ecis
ion+
reca
llf1=\frac
f1=pre
cisi
on+r
ecal
l2×p
reci
sion
×rec
all
。
(1)巨集平均f1與微平均f1是以兩種不同的平均方式求的全域性f1指標。
(2)巨集平均f1的計算方法先對每個類別單獨計算f1值,再取這些f1值的算術平均值作為全域性指標。
(3)微平均f1的計算方法是先累加計算各個類別的a、b、c、d的值,再由這些值求出f1值。
(4)由兩種平均f1的計算方式不難看出,巨集平均f1平等對待每乙個類別,所以它的值主要受到稀有類別的影響,而微平均f1平等考慮文件集中的每乙個文件,所以它的值受到常見類別的影響比較大。
roc曲線是(receiver operating characteristic curve,受試者工作特徵曲線)的簡稱,是以靈敏度(真陽性率)為縱座標,以1-特異性(假陽性率)為橫座標繪製的效能評價曲線。可以將不同模型對同一資料集的roc曲線繪製在同一笛卡爾座標系中,roc曲線越靠近左上角,說明其對應模型越可靠。也可以通過roc曲線下面的面積(area under curve, auc)來評價模型,auc越大,模型越可靠。
一般情況下,在一定正確率前提下,要求分類器的召回率盡量高。
分類評估方法
1.1.1 混淆矩陣 在分類任務下,結果 predicted condition 與正確標記 true condition 之間存在四種不同的組合,構成混淆矩陣 適用於多分類 1.1.2 精確率 precision 與召回率 recall 還有其他的評估標準,f1 score,反映了模型的穩健型 r...
分類演算法評估指標
2 準確率 accuracy 準確率是常用的乙個評價指標,但是不適合樣本不均衡的情況。ac cura cy t p tn tp t n fp fn accuracy tp tn tp tn fp fnac cura cy t p tn tp t n fp fn 3 精確率 precision 又稱查...
分類結果的評估方法
模型評估可以用在模型型別 調節引數及特徵組合中。通過模型評估來估計訓練得到的模型對於非樣本資料的泛化能力,並且還需要恰當的模型評估度量手段來衡量模型的效能表現。通常在回歸問題可以採用平均絕對誤差 mean absolute error 均方誤差 mean squared error 均方根誤差 ro...