機器學習中常用的模型效能指標

2021-10-02 22:01:23 字數 1684 閱讀 3626

乙個測試樣本集s總共有100張**,其中,電動車的**有60張,電單車的**有40張。給模型(二分類模型)輸入這100張**進行分類識別,我們的目標是:要找出這100張**中的所有電動車。在100張**中,模型識別給出了50個電動車目標,剩下50個則是電單車。這與實際的情況有出入(實際是:電動車60個,電單車40個)。

正例:positives,即你所關注的類別,本次問題在與找出電動車的**,那麼電動車的**自然就是正例。

負例:negatives, 二分類問題中,正例之外即負例,本問題中電單車的**就是負例。

定義:tp:真的電動車(真正例);

fp:假的電動車(假正例);

tn:真的電單車(真負例);

fn:假的電單車(假負例)。

符號簡稱

含義tp=40

真正例識別對了的正例(實際是正例)

fn=20

假負例識別錯了的負例(實際是正例)

tn=30

真負例識別對了的負例(實際是負例)

fp=10

假正例識別錯了的負例(實際是正例)

也及準確率,識別對了的正例(tp)與負例(tn)佔總識別樣本的比例。

即:a=(tp+tn)/s,本例中,a=70/100=0.7

通常來說,正確率越高,模型效能越好

識別錯了的正例(fp)與負例(fn)佔總識別樣本的比例。

即:e=(fp+fn)/s,本例中,e=30/100=0.3

可見,正確率與錯誤率是分別從正反兩面進行評價的指標,兩者數值相加等於1。

識別對了的正例(tp)佔識別出的正例(tp+fp)的比例。其中,識別出的正例等於識別對的正例加上識別錯了的正例。

即p=tp/(tp+fp),本例中,p=40/500=0.8

精度即為識別目標正確的比例。精度也即查準率,好比電動車的例子,模型查出了50個目標,但這50個目標中準確的比率有多少。

識別對了的正例(tp)佔實際總的正例的比例。其中,實際總正例等於識別對了的正例加上識別錯了的負例(tp+fn)。

即r=tp/(tp+fn),本例中,r=40/60=0.67

在一定意義上,召回率也可以說是「找回率」,也就是也就是在實際60個目標中,找回了40個。同時,召回率也即查全率,即在實際60個目標中,有沒有查詢完全,查詢到的比率是多少。

f1 = 2/[(1/p) + (1/r)]

本例中,f1 = 2/[(1/0.8) + (1/0.67)] = 0.73

f1 值主要用於分類場景

p-r 曲線:橫軸召回率,縱軸精確率。

roc(receiver operating characteristic curve接收者操作特徵曲線):採用不分類閾值時的tpr(真正例率)與fpr(假正例率)圍成的曲線,以fpr為橫座標,tpr為縱座標。如果 roc 是光滑的,那麼基本可以判斷沒有太大的overfitting。

auc(area under curve):計算從(0, 0)到(1, 1)之間整個roc曲線一下的整個二維面積,用於衡量二分類問題其機器學習演算法效能的泛化能力。其另一種解讀方式可以是模型將某個隨機正類別樣本排列在某個隨機負類別樣本之上的概率。

[參考]

傳送門

機器學習 分類器效能指標

1.錯誤率 e 錯誤分類個數 總樣本數 2.正確率 tp 分類正確正例 tn 分類正確負例 fp 分類錯誤正例 fn 分類錯誤負例 precision 分類正確的正類 結果中被分為正類的個數 tp tp fp 3.召回率 recall 分類正確的正類 所有正類的個數 tp tp fn 4.f1 sc...

機器學習 常用的回歸模型效能評價指標

對於回歸而言,模型效能的好壞主要體現在擬合的曲線與真實曲線的誤差。主要的評價指標包括 擬合優度 r squared,校正決定係數 adjusted r square 均方誤差 mse 均方根誤差 rmse 誤差平方和 sse 平均絕對誤差 mae 平均絕對百分比誤差 mape 均方誤差是指 觀測值與...

機器學習常用效能度量指標

回歸任務最常用的指標是 均方誤差 mean squared error 給定樣例集d 其中yi是示例xi的真實標記。記f x 為 結果。均方誤差表示為 這兩個指標既適用於二分類任務,也適用於多分類任務。錯誤率是分類錯誤的樣本數佔樣本總數的比例,精度則是分類正確的樣本數佔樣本總數的比例。錯誤率定義為 ...