分類演算法最常見的指標是分類準確率(accuracy),而當樣本中的分類極度不均衡時,accuracy不能說明問題(例如在100個觀測樣本中,有95個0,5個1,全部**為0,accuracy是95%,已經很高了)。
一般我們用混淆矩陣(confusion matrix)來描述二分類的好壞,也通過此矩陣衍生出一系列指標。
舉例:
roc意指receiver operating characteristic(受試者工作曲線),最初用來區分噪音和非噪音,一般用來度量二分類分類器的表現.
roc曲線以靈敏度(tpr)作為y軸,假陽性率(fpr)作為x軸.即在**為真的觀測中,錯誤**為真的概率(佔所有假)為x,正確**為真的概率(佔所有真)為y的變化趨勢.
評估二分類分類器除了可以用roc曲線,也可以用精確度和靈敏度,或者綜合指標f統計量去衡量
roc曲線對正負樣例佔比不敏感,也就是說當正負樣例的比例變化時,roc曲線不會變化
有兩條曲線組成,橫座標為rpp,縱座標為tpr和fpr
兩條曲線可以區分在**為正的樣例中真正例和假正例的區分程度,也可以看成是精確度的一種度量方式
二分類模型評估指標
accuracy tp tn tp fp tn fn 即正確 的正反例數 總數。準確率是 正確的結果佔總樣本的百分比,是很自然就會想到的指標,但很多專案場景都不適用!最主要的原因是樣本不平衡。舉個簡單的例子,比如在乙個總樣本中,正樣本佔90 負樣本佔10 樣本是嚴重不平衡的。對於這種情況,我們只需要...
二分類問題模型指標
正如下圖所示,f1的值同時受到p r的影響,單純地追求p r的提公升並沒有太大作用。在實際業務工程中,結合正負樣本比,的確是一件非常有挑戰的事。auc是roc的積分 曲線下面積 是乙個數值,一般認為越大越好,數值相對於曲線而言更容易當做調參的參照。pr曲線會面臨乙個問題,當需要獲得更高recall時...
二分類模型評價指標 AUC
auc的含義和計算 auc針對二分類模型效果進行評價,二分類模型有時可能得到的是乙個概率值,這個概率值表明為 0或1類 的可能性 不同於決策樹分類,我們會直接得到乙個確切分類 我們劃定乙個具體概率值p,大於則為正,小於則為負,然後使用acc或其他指標評價,其實這樣做有很大漏洞,我們不能準確找到這個具...