ps1:統計中,第一類錯誤:事實為真,被認為是假
第二類錯誤:事實為假,確認為是真
ps2:roc曲線,曲線上每乙個點對應乙個模型,對於同一條曲線上,是指同乙個演算法中所有模型,不同曲線代表圖通演算法。
1 tp, tn, fp, fn的概念
圖如下所示,裡面綠色的半圓就是tp(true positives), 紅色的半圓就是fp(false positives), 左邊的灰色長方形(不包括綠色半圓),就是fn(false negatives)。右邊的 淺灰色長方形(不包括紅色半圓),就是tn(true negatives)。這個綠色和紅色組成的圓內代表我們分類得到模型結果認為是正值的樣本。2.精確率(precision), 召回率(recall), 特異性(specificity),f1值,tpr,fpr的概念(1)精確率(precision)的數學定義是:tp(true positives):是指**認為是對的(positives),並且確實為對的(true)
fp(false positives):是指**認為是對的(positives),但是實際上是錯的(false)
fn(false negatives):是指**認為是錯的(negitives),並且確實為錯的(false)
tn(true negatives):是指**認為是錯的(negatives),但是實際上是對的(true)
p = tp/(tp+fp)
公式實際上是表示在**過程中,**為真並且**對的概率,是綠色半圓除以紅色綠色組成的圓.
(2)召回率(recall)的數學定義是:
r = tp/(tp+fn)
公式實際上是表示在**過程中,**為真佔所有真集的概率,是綠色半圓除以左邊的長方形.
(3)特異性(specificity)的數學定義是:
s = tn/(fp+tn)
公式實際上是表示在**過程中,**為假佔所有假集的概率,是右邊長方形去掉右邊半圓佔右邊長方形的部分.
(4)f1值的資料定義是:
2/f1 = 1/p +1/r
f1值是精確率與召回率之間的調和均值
但是有時候我們對p和r的權重設定有所不同,致使我們的f1值不同:
fa = (1+a*a)*p *r/(a*a
p +r)
當a<1的時候,精確率的權重小,當a>1時候精確率權重大
(5)靈敏度(tpr)
tpr,即true positives rate,它數值上等於召回率.
(6)1-特異度(fpr)
fpr,即false positives rade, 他等於1-特異度,它等於fp/(fp+tn)
3.roc曲線和pr曲線
roc曲線(receiver operating characteristic curve,簡稱roc曲線),以tpr為y軸,以fpr為x軸,我們就直接得到了roc曲線。從fpr和tpr的定義可以理解,tpr越高,fpr越小,我們的模型和演算法就越高效。也就是畫出來的roc曲線越靠近左上越好。如下圖左圖所示。從幾何的角度講,roc曲線下方的面積越大越大,則模型越優。所以有時候我們用roc曲線下的面積,即auc(area under curve)值來作為演算法和模型好壞的標準。
以精確率(precision)為y軸,以召回率(recall)為x軸,我們就得到了pr曲線。仍然從精確率和召回率的定義可以理解,精確率越高,召回率越高,我們的模型和演算法就越高效。也就是畫出來的pr曲線越靠近右上越好。如上圖右圖所示。
使用roc曲線和pr曲線,我們就能很方便的評估我們的模型的分類能力的優劣了。
精確率與召回率,ROC曲線與PR曲線
在機器學習的演算法評估中,尤其是分類演算法評估中,我們經常聽到精確率 precision 與召回率 recall roc曲線與pr曲線這些概念,那這些概念到底有什麼用處呢?首先,我們需要搞清楚幾個拗口的概念 true positives,tp 為正樣本,實際也為正樣本的特徵數 false posit...
精確率與召回率,RoC曲線與PR曲線
在機器學習的演算法評估中,尤其是分類演算法評估中,我們經常聽到精確率 precision 與召回率 recall roc曲線與pr曲線這些概念,那這些概念到底有什麼用處呢?首先,我們需要搞清楚幾個拗口的概念 true positives,tp 為正樣本,實際也為正樣本的特徵數 false posit...
精確率與召回率,RoC曲線與PR曲線
在機器學習的演算法評估中,尤其是分類演算法評估中,我們經常聽到精確率 precision 與召回率 recall roc曲線與pr曲線這些概念,那這些概念到底有什麼用處呢?首先,我們需要搞清楚幾個拗口的概念 1.tp,fp,tn,fn true positives,tp 為正樣本,實際也為正樣本的特...