分類器評估 混淆矩陣和ROC曲線

2021-10-04 17:16:57 字數 2117 閱讀 9227

**為正樣本: +1

**為負樣本 : -1

原正樣本: +1

真陽 (tp)

假陰(fn)

原負樣本 : -1

假陽(fp)

真陰(tn)

這裡以二分類問題來討論:

很明顯,理想完美的分類器的對角線為0,即所有正樣本**為正樣本,所有負樣本**為負樣本。

由混淆矩陣可以得出的一些引數:

(1)accuracy:模型的精度,模型**正確個數/樣本的總個數;

(2)positive predictive value(ppv,precision):正確率,陽性**值,在模型**為正類的樣本中,真正的正樣本所佔的比例;

(3)false discovery rate(fdr):偽發現率,也是錯誤發現率,表示在模型**為正類的樣本中,真正的負類的樣本所佔的比例;

(4)false omission rate(for):錯誤遺漏率,表示在模型**為負類的樣本中,真正的正類所佔的比例。即評價模型"遺漏"掉的正類的多少。

(5)negative predictive value(npv):陰性**值,在模型**為負類的樣本中,真正為負類的樣本所佔的比例。

(6)true positive rate(tpr,recall):召回率,真正類率,表示的是,模型**為正類的樣本的數量,佔總的正類樣本數量的比值。

(7)false positive rate(fpr),fall-out:假正率,表示的是模型**為正類的樣本中,佔模型負類樣本數量的比值。

(8)false negative rate(fnr),miss rate:假負類率,缺失率,模型**為負類的樣本中,是正類的數量,佔真實正類樣本的比值。

以上這麼多引數的值,越大越好,有的則越小越好,不再一一討論~

roc全稱:代表接收者操作特徵(receiver operating characteristic)。roc曲線是一種可以直觀觀察分類器分類效果的圖線。

首先說明一下,roc的橫座標為假陽率即(fp/(fp+tn)) ;縱座標為真陽率即(tp/(tp+fn));roc曲線越靠近左上角,分類器的分類效果越好。

接下來,就如何繪製出roc曲線,通俗的表達一下我的理解:

首先,我們知道分類器分類出來的結果是0~1的小數值,我們可以認為是大於等於0.5(閾值)的為正樣本,其餘為負樣本。舉個栗子,如果測試資料集標籤為[-1,+1,+1,-1,+1],而我們分類器得到標籤為[0.2, 0.8, 0.7, 0.1, 0.9];這說明我們分類器準確率為100%,這是最好的情況!

繪製roc曲線採用的是閾值是動態變化的,將**出的標籤值按從大到小排序,然後依次取值作為閾值。

假如 測試集標籤不變,我們**的結果為:[0.2, 0.4, 0.7, 0.6, 0.9] 有兩個是錯誤的。我們對其從大到小排序並返回索引值為[4,2,3,1,0]

接下來我們開始一步步繪製:規定x軸的移動步長為(1/fp+tn),其實就是真實資料集標籤中,負樣本的個數;y軸的移動步長為(1/tp+fn),其實就是真實資料集標籤中,正樣本的個數。

具體操作如下:

大致過程就是這樣,可以看到 核心思想就是!!!每增加乙個真正樣本(tp)y軸就會移動一步;每增加乙個假正樣本(np)x軸就會移動一步。

所以我理解的就是,如果是乙個準確率為100%的分類器,按照從大到小對**值排序;這個roc曲線就會先一直移動y軸,直到移動到(0,1)座標,其次開始移動x軸到(1,0)座標,構成乙個直角。

但事實往往是,在y軸移動的過程中,挨個對排好序的索引值對應的真實資料集標籤檢查時,發現這個索引對應的值 不是正樣本,所以就被迫改變繪製路徑,水平移動一步!!!

所以如果移動的步長不算太小,可以看出roc曲線是鋸齒狀的:

同樣,涉及到的auc(area unser the curve)就是指的是曲線下方的面積,就是無數個小矩形的和。肯定是越大越好了~

2020/4/2 bygsq

分類器評估方法 ROC曲線

注 本文是人工智慧研究網的學習筆記 最好的 模型在左上角,代表100 的靈敏度和0 的虛警率,被稱為完美分類器。乙個隨機猜測模型。會給出從左下角到右上角的沿著對角線的點 對角線被稱作line of no discrimation 對角線上的的點代表了好的分配結果,對角線以下的點代表不好的分配結果,但...

統計建模 分類效能評價(混淆矩陣和ROC曲線)

在資料本身嚴重有偏的情況下,準確率很容易達到乙個很高的數值,因此需要尋找另外的效能評價方法。混淆矩陣 將資料按待分的類別分組後,統計各組中模型分類或 結果的矩陣 可直接獲取鳶尾花資料集 plt.figure figsize 12 15 for n in range 4 print n for m i...

混淆矩陣與PR曲線 ROC曲線的理解與使用

1.混淆矩陣 對於分類器而言,乙個比較好的評估指標是混淆矩陣。下面通過乙個 具體展示在二分類器中的應用。neg 非a pos a neg 非a樣本 90 tn 10 fp pos a樣本 30 fn 70 tp 其中neg表示非a類,pos表示a類。從 中可以得知,此分類器更能有效地識別非a樣本,而...