1.1.1 混淆舉證
1 1.2 精確率(precision) 與召回率(recall)
召回率: 真實為正例的樣本中**結果為正例的比例
r ec
all=
tptp
+fnrecall=\frac
recall
=tp+
fntp
能夠很好的評估模型,其主要用於二分類問題.
f 1=
2tp2
tp+f
n+fp
=2.pr
ecis
ion.
reca
llpr
ecis
ion+
reca
llf1=\frac=\frac
f1=2tp
+fn+
fp2t
p=p
reci
sion
+rec
all2
.pre
cisi
on.r
ecal
l而 更一般的有f
* 其實,β
\beta
β 本質上是recall, precision 權重比, 當 β=2
\beta=2
β=2時, 表明 recall 的權重要比precision高,其影響更大, ;當 β
=0.5
\beta=0.5
β=0.
5時, 表明 recall 的權重要比precision低, 對應的影響更小;
auc 為roc 曲線下的面積, 這個面積的數值介於0到1之間, 能夠直觀的評價出分類器的好壞, auc的值越大, 分類器效果越好sklearn.metrics.classification_report(y_true, y_pred, labels=
, target_names=
none
) y_true:真實目標值
y_pred:估計器**目標值
labels:指定類別對應的數字
target_names:目標類別名稱
return:每個類別精確率與召回率
auc只能用來評價二分類auc非常適合評價樣本不平衡中的分類器效能對於最終分類指標的選擇, 在不同資料集,不同場景,不同時間下都會有不同的選擇,但往往最好選出乙個指標來做優化,對於二分類問題,我目前用 auc 比較多一些, 多分類我還是看 好f1 值。from sklearn.metrics import roc_auc_score
sklearn.metrics.roc_auc_score(y_true, y_score)
計算roc曲線面積,即auc值
y_true:每個樣本的真實類別,必須為0
(反例),1
(正例)標記
y_score:**得分,可以是正類的估計概率、置信值或者分類器方法的返回值`
精確率與召回率
混淆矩陣 true positive 真正,tp 將正類 為正類數.true negative 真負 tn 將負類 為負類數.false positive 假正,fp 將負類 為正類數 誤報 type i error false negative 假負 fn 將正類 為負類數 漏報 type ii ...
精確率,召回率
精確率 p tp tp fp 反映了被分類器判定的正例中真正的正例樣本的比重 召回率 r tp tp fn 反映了被正確分類的正樣本佔所有正樣本的比例 準確率 accuracy a tp tn p n tp tn tp fn fp tn 反映了分類器統對整個樣本的判定能力 能將正的判定為正,負的判定...
精確率和召回率
實際上非常簡單,精確率是針對我們 結果而言的,它表示的是 為正的樣本中有多少是真正的正樣本。那麼 為正就有兩種可能了,一種就是把正類 為正類 tp 另一種就是把負類 為正類 fp 也就是 而召回率是針對我們原來的樣本而言的,它表示的是樣本中的正例有多少被 正確了。那也有兩種可能,一種是把原來的正類 ...