機器學習模型評估總結

2021-10-23 08:49:33 字數 2978 閱讀 9051

acc

urac

y=nc

orre

ctnt

otal

accuracy=\frac}}

accura

cy=n

tota

l​nc

orre

ct​​

n co

rrec

tn_

ncorre

ct​: 被正確分類的樣本個數

n to

taln_

ntotal

​ :總樣本個數

存在問題:當不同類別的樣本比例不均衡時,佔比大的類別往往決定了準確率。

precision精確率:針對**結果,它表示的是**為正的樣本中有多少是真正的正樣本。那麼**為正就有兩種可能了,一種把正類**為正類(tp),另一種把負類**為正類(fp),得到公式:

pre

cisi

on=t

ptp+

fp

precision =\frac

precis

ion=

tp+f

ptp​

recall召回率:針對原來的樣本,它表示的是樣本中的正例有多少被**正確了。也有兩種可能,一種把原來的正類**成正類(tp),另一種把原來的正類**為負類(fn)。得到公式:

rec

all=

tptp

+f

nrecall=\frac

recall

=tp+

fntp

f−m

easu

re

αf-measure_

f−meas

ureα

​是precision和recall加權調和平均.在大規模資料集合中,這precision和recall是相互制約的因此,f−m

easu

re

αf-measure_

f−meas

ureα

​更能反應分類器的效能,當α

α 為1時,即為f1-score。

f−m

easu

reα=

(1+α

2)∗p

reci

sion

∗rec

allα

2∗(p

reci

sion

+rec

all)

f-measure_=\frac

f−meas

ureα

​=α2

∗(pr

ecis

ion+

reca

ll)(

1+α2

)∗pr

ecis

ion∗

reca

ll​

roc曲線的橫座標為假陽率fpr(false positive rate,tpr),縱座標為真陽率tpr(true positive rate,tpr)

fpr

=fpn

fpr =\frac

fpr=nf

p​t pr

=tpp

tpr =\frac

tpr=pt

p​p:真實的正樣本數量,

n:是真實的負樣本數量,

tp:p個正樣本被分類器**為正樣本的個數

fp:n個負樣本被分類器**為正樣本的個數

定義:auc就是roc曲線下的面積,auc越大說明,分類器效能更好

物理意義:任取一對(正,負)樣本,正樣本score大於負樣本score的概率,即分類器將正樣本排在前面的概率

計算公式: m代表正樣本數量,n代表負樣本數量

auc

=∑i∈

mran

ki−m

(m+1

)2m∗

nauc = \frac rank_i - \frac2}

auc=m∗

n∑i∈

m​ra

nki​

−2m(

m+1)

​​

rmse(均方根誤差)被用來衡量回歸模型**值與真實值的偏離程度。

rmse公式:rms

e=∑i

=1n(

yi−y

^i)2

nrmse= \sqrt_(y_i - \hat y_i)^2}}

rmse=n

∑i=1

n​(y

i​−y

^​i​

)2​​

y

iy_i

yi​是第i個樣本點的真實值,y^i

\hat y_i

y^​i

​是**值,n是樣本點個數

rmse對雜訊點特別敏感,因此mape(平均絕對百分比誤差)指標魯棒性更好

mape公式:map

e=∑i

=1n∣

(yi−

y^i)

2yi∣

∗100

nmape= \sum^_\mid\frac\mid *\frac

mape=i

=1∑n

​∣yi

​(yi

​−y^

​i​)

2​∣∗

n100

機器學習的模型評估

機器演算法有很多,各種模型的在不同的場景下各有優劣。所以需要一些方法來對機器學習的方法有乙個判斷。真實情況 正例反例 正例tp 真正例 fn 假反例 反例fp 假正例 tn 真反例 p tpt p fp r tptp fnroc reciever operating characteristic 是...

機器學習模型評估方法

分類模型評價度量 概率輸出型 這個有邏輯回歸 隨機森林 梯度提公升 adaboost等演算法,都是以概率作為輸出的。要想把概率型輸出變為分型別輸出,只要為其設立乙個閾值即可。positive predictive value 陽性 值 or precision 精度 陽性 值被 正確的比例。nega...

機器學習 模型評估指標

from sklearn.metrics import accuracy score print 準確率 accuracy score y true,y pred,normalize true print 正確分類的數量 accuracy score y true,y pred,normalize ...