acc存在問題:當不同類別的樣本比例不均衡時,佔比大的類別往往決定了準確率。urac
y=nc
orre
ctnt
otal
accuracy=\frac}}
accura
cy=n
tota
lnc
orre
ct
n co
rrec
tn_
ncorre
ct: 被正確分類的樣本個數
n to
taln_
ntotal
:總樣本個數
precision精確率:針對**結果,它表示的是**為正的樣本中有多少是真正的正樣本。那麼**為正就有兩種可能了,一種把正類**為正類(tp),另一種把負類**為正類(fp),得到公式:
prerecall召回率:針對原來的樣本,它表示的是樣本中的正例有多少被**正確了。也有兩種可能,一種把原來的正類**成正類(tp),另一種把原來的正類**為負類(fn)。得到公式:cisi
on=t
ptp+
fp
precision =\frac
precis
ion=
tp+f
ptp
recf−mall=
tptp
+f
nrecall=\frac
recall
=tp+
fntp
easu
re
αf-measure_
f−meas
ureα
是precision和recall加權調和平均.在大規模資料集合中,這precision和recall是相互制約的因此,f−m
easu
re
αf-measure_
f−meas
ureα
更能反應分類器的效能,當α
α 為1時,即為f1-score。
f−mroc曲線的橫座標為假陽率fpr(false positive rate,tpr),縱座標為真陽率tpr(true positive rate,tpr)easu
reα=
(1+α
2)∗p
reci
sion
∗rec
allα
2∗(p
reci
sion
+rec
all)
f-measure_=\frac
f−meas
ureα
=α2
∗(pr
ecis
ion+
reca
ll)(
1+α2
)∗pr
ecis
ion∗
reca
ll
fpr定義:auc就是roc曲線下的面積,auc越大說明,分類器效能更好=fpn
fpr =\frac
fpr=nf
pt pr
=tpp
tpr =\frac
tpr=pt
pp:真實的正樣本數量,
n:是真實的負樣本數量,
tp:p個正樣本被分類器**為正樣本的個數
fp:n個負樣本被分類器**為正樣本的個數
物理意義:任取一對(正,負)樣本,正樣本score大於負樣本score的概率,即分類器將正樣本排在前面的概率
計算公式: m代表正樣本數量,n代表負樣本數量
aucrmse(均方根誤差)被用來衡量回歸模型**值與真實值的偏離程度。=∑i∈
mran
ki−m
(m+1
)2m∗
nauc = \frac rank_i - \frac2}
auc=m∗
n∑i∈
mra
nki
−2m(
m+1)
rmse公式:rmsrmse對雜訊點特別敏感,因此mape(平均絕對百分比誤差)指標魯棒性更好e=∑i
=1n(
yi−y
^i)2
nrmse= \sqrt_(y_i - \hat y_i)^2}}
rmse=n
∑i=1
n(y
i−y
^i
)2
y
iy_i
yi是第i個樣本點的真實值,y^i
\hat y_i
y^i
是**值,n是樣本點個數
mape公式:mape=∑i
=1n∣
(yi−
y^i)
2yi∣
∗100
nmape= \sum^_\mid\frac\mid *\frac
mape=i
=1∑n
∣yi
(yi
−y^
i)
2∣∗
n100
機器學習的模型評估
機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...
機器學習模型評估方法
分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...
機器學習 模型評估指標
from sklearn.metrics import accuracy score print 準確率 accuracy score y true,y pred,normalize true print 正確分類的數量 accuracy score y true,y pred,normalize ...