混淆矩陣(confusion matrix)是視覺化工具,特別用於監督學習,在無監督學習中一般叫做匹配矩陣,主要用於比較分類結果和實際測得值,可以把分類結果的精度顯示在乙個混淆矩陣裡面。
tp的定義:實際為正**為正
fp的定義:實際為負但**為正
tn的定義:實際為負**為負
fn的定義:實際為正但**為負
召回率(recall,tnr):**對的正例數佔真正的正例數的比率
計算公式:recall=tp / (tp+fn)
準確率:反映分類器統對整個樣本的判定能力,能將正的判定為正,負的判定為負
計算公式:accuracy=(tp+tn) / (tp+fp+tn+fn)
精準率:指的是所得數值與真實值之間的精確程度;**正確的正例數佔**為正例總量的比率
計算公式:precision=tp / (tp+fp)
f值:f-score是precision和recall加權調和平均數,並假設兩者一樣重要
計算公式:f1 score=(2recallprecision) / (recall+precision)
**auc(area under curve)**被定義為roc曲線下的面積,顯然這個面積的數值不會大於1。又由於roc曲線一般都處於y=x這條直線的上方,所以auc的取值範圍在0.5和1之間。使用auc值作為評價標準是因為很多時候roc曲線並不能清晰的說明哪個分類器的效果更好,而作為乙個數值,對應auc更大的分類器效果更好。
auc值是乙個概率值,當你隨機挑選乙個正樣本以及乙個負樣本,當前的分類演算法根據計算得到的score值將這個正樣本排在負樣本前面的概率就是auc值。當然,auc值越大,當前的分類演算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。
ks值,正樣本洛倫茲曲線記為f(x),負樣本洛倫茲曲線記為g(x),k-s曲線實際上是f(x)與g(x)的差值曲線。k-s曲線的最高點(最大值)定義為ks值,ks值越大,模型分值的區分度越好,ks值為0代表是最沒有區分度的隨機模型。準確的來說,k-s是用來度量陽性與陰性分類區分程度的。
ML筆記 分類演算法之SVM
1.svm是什麼?support vector machine。乙個普通的svm就是一條直線,用來完美劃分linearly separable的2類,即2分類。但這有不是一條普通的直線,這是無數條可以分類的直線當中最完美的,因為它喬海在2個類的中間,距離2個類的點都一樣遠。而所謂的support v...
分類模型的評估
1.混淆矩陣 對於乙個分類器 二分類 結果和真實情況總共存在四種情況,值分為正類 負類,真實值分分為正類 父類,兩兩組合,共有四種情況,如下所示,即組成乙個混淆矩陣 針對多分類問題,真實情況有n類,情況有n類,所以其混淆矩陣為nxn 準確率即為所有 正確的樣本 樣本總數 即 accuracy tp ...
ML之模型評估與選擇簡介
分類錯誤的樣本數佔樣本總數的比例成為 error rate 錯誤率 相應的,分類正確的稱為 accuracy 精確度 對於學習器的實際 輸出和樣本的真實輸出差異稱為 error 誤差 在講到linear regression的課上,andrew就提出overfitting underfitting這...