沒有測量,就沒有科學。在模型評估過程中, 分類問題、 排序問題、 回歸問題往往需要使用不同的指標進行評估。 在諸多的評估指標中, 大部分指標只能片面地反映模型的一部分效能。 如果不能合理地運用評估指標, 不僅不能發現模型本身的問題, 而且會得出錯誤的結論。-----門捷列夫
準確率( accuracy) , 精確率( precision) , 召回率( recall) , 均方根誤差( root mean square error, rmse)
準確率是分類問題中最簡單也是最直觀的評價指標, 但存在明顯的缺陷。 比如, 當負樣本佔99%時, 分類器把所有樣本都**為負樣本也可以獲得99%的準確率。 所以, 當不同類別的樣本比例非常不均衡時, 佔比大的類別往往成為影響準確率的最主要因素。
- 真陽性(true positive,tp):指被分類器正確分類的正例資料
- 真陰性(true negative,tn):指被分類器正確分類的負例資料
- 假陽性(false positive,fp):將負類**為正類數 (誤檢)
- 假陰性(false negative,fn):將正類**為負類數(漏檢)
準確率accuracy =(tp+tn)/(tp+tn+fp+fn)
正檢率 = tp/(tp+tn+fp+fn)
誤檢率 = fp/(tp+tn+fp+fn)
漏檢率 = fn/(tp+tn+fp+fn)
precision = tp/(tp+fp);
recall = tp/(tp+fn)=tp/p ;
正樣本對總數p = tp+ fn
負樣本對總數 n = tn+ fp
roc曲線的橫座標為:fpr = fp/n,縱座標為:tpr=tp/p
1. 誤識率(false accept rate, far):這是將其他人誤作指定人員的概率;
2. 拒識率(false reject rate , frr):這是將指定人員誤作其它人員的概率;
計算方法:設定乙個分數閾值t,far=非同人分數》t/非同人比較的次數,frr=同人比較分數一般,far=0.001時,frr的值作為參考,值越小,效能越好。
誤識率far=錯誤識別為正樣本數/負樣本對總數= fp /n;far=fpr
拒識率frr=錯誤識別為負樣本數/正樣本對總數= fn/p;frr=1-tpr
3. 採用的閾值不同,far和frr這兩個指標也不相同,一般情況下,誤識率(far)隨著閾值放寬條件而增大,拒識率(frr)隨著閾值放寬條件而減小。因此,可以採用等錯率(equal error rate, eer)作為效能的指標,eer是拒識率和誤識率的乙個平衡點(far=frr),等錯率能夠取到的值越低,表示演算法的效能越好;
4. auc值作為演算法好壞的評判標準,面積越大,表示分類效能越好
mapprecision = tp/(tp+fp);
recall = tp/(tp+fn)=tp/p ;
把每種recall對應最大的precision求和取平均即ap。
筆記於《百面機器學習》
機器學習面筆試 模型評估篇
p r圖,即以查全率做橫軸,查準率做縱軸的平面示意圖,通過p r曲線,來綜合判斷模型的效能。p r圖的畫法是先對對 結果進行排序,排在前面的是學習器認為最可能是正例的樣本,排在最後面的是最不可能的樣本。按順序,依次將每乙個樣本劃分為正例進行 就得到了多組查準率和查全率的值。roc空間是乙個以假陽性率...
百面機器學習
目錄 第一章 特徵工程 1.1特徵歸一化 1.2高維組合特徵的處理 特徵工程 對原始資料進行一系列工程處理,將其提煉為特徵。作為輸入給演算法和模型使用。本質上,特徵工程是乙個表示和展現資料的過程。特徵工程旨在去除原始資料中的雜誌。結構化資料 類似於資料庫中的乙個表,每乙個行列都有清晰的定義,包含數值...
機器學習的模型評估
機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...