二分類模型評估指標

2022-10-09 02:39:11 字數 1476 閱讀 2525

accuracy = tp + tn / (tp + fp + tn + fn)

即正確**的正反例數 /**總數。準確率是**正確的結果佔總樣本的百分比,是很自然就會想到的指標,但很多專案場景都不適用!最主要的原因是樣本不平衡。舉個簡單的例子,比如在乙個總樣本中,正樣本佔90%,負樣本佔10%,樣本是嚴重不平衡的。對於這種情況,我們只需要將全部樣本**為正樣本即可得到90%的高準確率,但實際上我們並沒有很用心的分類,只是隨便無腦一分而已。這就說明了:由於樣本不平衡的問題,導致了得到的高準確率結果含有很大的水分。即如果樣本不平衡,準確率就會失效。

precision = tp / (tp + fp)

即正確**的正例數 /**正例總數。可理解為查準率。在**為正的記錄中,有多少實際為正?

recall = tp / (tp + fn)

即正確**的正例數 / 實際正例總數 。可理解為查全率。在實際為正的記錄中,有多少**為正?

f1 = 2*precision*recall / (precision + recall)

精確率和召回率的調和值。由於precision和recall是一對不可調和的矛盾,很難同時提高二者,也很難綜合評價。故提出f1來試圖綜合二者,f1是p和r的調和平均。f1更接近於兩個數較小的那個,所以精確率和召回率接近時值最大。很多推薦系統會用的評測指標。

fpr表示模型虛報的響應程度,而tpr表示模型**響應的覆蓋程度。我們希望:虛報的越少越好,覆蓋的越多越好。總結一下就是fpr越低tpr越高(即roc曲線越陡)那麼模型就越好。roc曲線無視樣本不平衡。畫曲線的用意是:用假正率與真正率的變化趨勢,來觀察模型是否能在較低的假正率下得到較高的真正率。

如何繪製roc曲線?可以跳轉至:roc曲線的繪製

繪製roc曲線時,橫軸縱軸都是0~1,形成乙個1*1的正方形。auc就是在這個正方形裡roc曲線圍成的面積如果連線正方形的對角線,它的面積正好是0.5。對角線的實際含義是:隨機判斷響應與不響應,正負樣本覆蓋率都是50%,即auc =0.5表示隨機分類器。auc < 0.5表示差於隨機分類器,沒有建模價值;auc = 1表示完美分類器,不存在;0.5 < auc < 1,優於隨機分類器,大多模型都在這個區間裡。 

auc的一般判斷標準:

0.5 - 0.7:效果較低,但用於****已經很不錯了。

0.7 - 0.85:效果一般0.85 - 0.95:效果很好。

0.95 - 1:效果非常好,但基本不太可能。

二分類模型評估

分類演算法最常見的指標是分類準確率 accuracy 而當樣本中的分類極度不均衡時,accuracy不能說明問題 例如在100個觀測樣本中,有95個0,5個1,全部 為0,accuracy是95 已經很高了 一般我們用混淆矩陣 confusion matrix 來描述二分類的好壞,也通過此矩陣衍生出...

二分類問題模型指標

正如下圖所示,f1的值同時受到p r的影響,單純地追求p r的提公升並沒有太大作用。在實際業務工程中,結合正負樣本比,的確是一件非常有挑戰的事。auc是roc的積分 曲線下面積 是乙個數值,一般認為越大越好,數值相對於曲線而言更容易當做調參的參照。pr曲線會面臨乙個問題,當需要獲得更高recall時...

二分類模型評價指標 AUC

auc的含義和計算 auc針對二分類模型效果進行評價,二分類模型有時可能得到的是乙個概率值,這個概率值表明為 0或1類 的可能性 不同於決策樹分類,我們會直接得到乙個確切分類 我們劃定乙個具體概率值p,大於則為正,小於則為負,然後使用acc或其他指標評價,其實這樣做有很大漏洞,我們不能準確找到這個具...