**為正樣本: +1
**為負樣本 : -1
原正樣本: +1
真陽 (tp)
假陰(fn)
原負樣本 : -1
假陽(fp)
真陰(tn)
這裡以二分類問題來討論:
很明顯,理想完美的分類器的對角線為0,即所有正樣本**為正樣本,所有負樣本**為負樣本。
由混淆矩陣可以得出的一些引數:
(1)accuracy:模型的精度,模型**正確個數/樣本的總個數;
(2)positive predictive value(ppv,precision):正確率,陽性**值,在模型**為正類的樣本中,真正的正樣本所佔的比例;
(3)false discovery rate(fdr):偽發現率,也是錯誤發現率,表示在模型**為正類的樣本中,真正的負類的樣本所佔的比例;
(4)false omission rate(for):錯誤遺漏率,表示在模型**為負類的樣本中,真正的正類所佔的比例。即評價模型"遺漏"掉的正類的多少。
(5)negative predictive value(npv):陰性**值,在模型**為負類的樣本中,真正為負類的樣本所佔的比例。
(6)true positive rate(tpr,recall):召回率,真正類率,表示的是,模型**為正類的樣本的數量,佔總的正類樣本數量的比值。
(7)false positive rate(fpr),fall-out:假正率,表示的是模型**為正類的樣本中,佔模型負類樣本數量的比值。
(8)false negative rate(fnr),miss rate:假負類率,缺失率,模型**為負類的樣本中,是正類的數量,佔真實正類樣本的比值。
以上這麼多引數的值,越大越好,有的則越小越好,不再一一討論~
roc全稱:代表接收者操作特徵(receiver operating characteristic)。roc曲線是一種可以直觀觀察分類器分類效果的圖線。
首先說明一下,roc的橫座標為假陽率即(fp/(fp+tn)) ;縱座標為真陽率即(tp/(tp+fn));roc曲線越靠近左上角,分類器的分類效果越好。
接下來,就如何繪製出roc曲線,通俗的表達一下我的理解:
首先,我們知道分類器分類出來的結果是0~1的小數值,我們可以認為是大於等於0.5(閾值)的為正樣本,其餘為負樣本。舉個栗子,如果測試資料集標籤為[-1,+1,+1,-1,+1],而我們分類器得到標籤為[0.2, 0.8, 0.7, 0.1, 0.9];這說明我們分類器準確率為100%,這是最好的情況!
繪製roc曲線採用的是閾值是動態變化的,將**出的標籤值按從大到小排序,然後依次取值作為閾值。
假如 測試集標籤不變,我們**的結果為:[0.2, 0.4, 0.7, 0.6, 0.9] 有兩個是錯誤的。我們對其從大到小排序並返回索引值為[4,2,3,1,0]
接下來我們開始一步步繪製:規定x軸的移動步長為(1/fp+tn),其實就是真實資料集標籤中,負樣本的個數;y軸的移動步長為(1/tp+fn),其實就是真實資料集標籤中,正樣本的個數。
具體操作如下:
大致過程就是這樣,可以看到 核心思想就是!!!每增加乙個真正樣本(tp)y軸就會移動一步;每增加乙個假正樣本(np)x軸就會移動一步。
所以我理解的就是,如果是乙個準確率為100%的分類器,按照從大到小對**值排序;這個roc曲線就會先一直移動y軸,直到移動到(0,1)座標,其次開始移動x軸到(1,0)座標,構成乙個直角。
但事實往往是,在y軸移動的過程中,挨個對排好序的索引值對應的真實資料集標籤檢查時,發現這個索引對應的值 不是正樣本,所以就被迫改變繪製路徑,水平移動一步!!!
所以如果移動的步長不算太小,可以看出roc曲線是鋸齒狀的:
同樣,涉及到的auc(area unser the curve)就是指的是曲線下方的面積,就是無數個小矩形的和。肯定是越大越好了~
2020/4/2 bygsq
分類器評估方法 ROC曲線
注 本文是人工智慧研究網的學習筆記 最好的 模型在左上角,代表100 的靈敏度和0 的虛警率,被稱為完美分類器。乙個隨機猜測模型。會給出從左下角到右上角的沿著對角線的點 對角線被稱作line of no discrimation 對角線上的的點代表了好的分配結果,對角線以下的點代表不好的分配結果,但...
統計建模 分類效能評價(混淆矩陣和ROC曲線)
在資料本身嚴重有偏的情況下,準確率很容易達到乙個很高的數值,因此需要尋找另外的效能評價方法。混淆矩陣 將資料按待分的類別分組後,統計各組中模型分類或 結果的矩陣 可直接獲取鳶尾花資料集 plt.figure figsize 12 15 for n in range 4 print n for m i...
混淆矩陣與PR曲線 ROC曲線的理解與使用
1.混淆矩陣 對於分類器而言,乙個比較好的評估指標是混淆矩陣。下面通過乙個 具體展示在二分類器中的應用。neg 非a pos a neg 非a樣本 90 tn 10 fp pos a樣本 30 fn 70 tp 其中neg表示非a類,pos表示a類。從 中可以得知,此分類器更能有效地識別非a樣本,而...