機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。
真實情況
正例反例
正例tp(真正例)
fn(假反例)
反例fp(假正例)
tn(真反例) p
=tpt
p+fp
r=tptp+
fnroc(reciever operating characteristic)是根據學習起的**結果對樣例進行排序,按此順序逐個把樣本作為正例進行**,每次計算出兩個重要的值分別為橫縱座標。
橫座標:假正例率(false positive rate) fp
r=fp
tn+f
p 縱座標:真正例率(true positive rate) tp
r=tp
tp+f
n auc(area under roc curve)是roc曲線下的面積,來評價模型期望效能。
在非均等代價下,roc曲線不能直接反映出學習器的總體代價,而代價曲線則可以。
偏差-方差分解(bias-variance decomposition):解釋學習演算法泛化效能。因為泛化誤差可以分解為偏差,方差與雜訊之和。偏差度量了學習演算法的期望**與真實結果的偏離程度,即刻畫了學習演算法本身的擬合能力;方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。雜訊表達了在當前任務上任何學習演算法所能達到的期望泛化誤差的下界,即刻畫了學習問題本身的難度。偏差-方差分解說明,泛化效能是由學習演算法的能力,資料的充分性以及學習任務本身難度決定的。
機器學習模型評估方法
分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...
機器學習 模型評估指標
from sklearn.metrics import accuracy score print 準確率 accuracy score y true,y pred,normalize true print 正確分類的數量 accuracy score y true,y pred,normalize ...
機器學習(五)模型評估
混淆矩陣 confusion matrix 中包含四種資料 t f表示 正確與否,p n表示被 為正例還是負例 由以上四種資料得到四種比率如下 tpr true positive rate,又稱靈敏度 sensitivity tpr tptp fn 即正例被正確 為正例的數目實際正例的數目 fpr ...