分類器評估混淆矩陣和ROC曲線

**為正樣本: +1

**為負樣本 : -1

原正樣本: +1

真陽（tp）

假陰（fn）

原負樣本 : -1

假陽（fp）

真陰（tn）

這裡以二分類問題來討論：

很明顯，理想完美的分類器的對角線為0，即所有正樣本**為正樣本，所有負樣本**為負樣本。

由混淆矩陣可以得出的一些引數：

（1）accuracy：模型的精度，模型**正確個數/樣本的總個數；

（2）positive predictive value（ppv，precision）：正確率，陽性**值，在模型**為正類的樣本中，真正的正樣本所佔的比例；

（3）false discovery rate（fdr）：偽發現率，也是錯誤發現率，表示在模型**為正類的樣本中，真正的負類的樣本所佔的比例；

（4）false omission rate（for）：錯誤遺漏率，表示在模型**為負類的樣本中，真正的正類所佔的比例。即評價模型"遺漏"掉的正類的多少。

（5）negative predictive value（npv）：陰性**值，在模型**為負類的樣本中，真正為負類的樣本所佔的比例。

（6）true positive rate（tpr，recall）：召回率，真正類率，表示的是，模型**為正類的樣本的數量，佔總的正類樣本數量的比值。

（7）false positive rate（fpr），fall-out：假正率，表示的是模型**為正類的樣本中，佔模型負類樣本數量的比值。

（8）false negative rate（fnr），miss rate：假負類率，缺失率，模型**為負類的樣本中，是正類的數量，佔真實正類樣本的比值。

以上這麼多引數的值，越大越好，有的則越小越好，不再一一討論~

roc全稱：代表接收者操作特徵（receiver operating characteristic）。roc曲線是一種可以直觀觀察分類器分類效果的圖線。

首先說明一下，roc的橫座標為假陽率即（fp/（fp+tn））；縱座標為真陽率即（tp/（tp+fn））；roc曲線越靠近左上角，分類器的分類效果越好。

接下來，就如何繪製出roc曲線，通俗的表達一下我的理解：

首先，我們知道分類器分類出來的結果是0~1的小數值，我們可以認為是大於等於0.5（閾值）的為正樣本，其餘為負樣本。舉個栗子，如果測試資料集標籤為[-1,+1,+1,-1,+1],而我們分類器得到標籤為[0.2, 0.8, 0.7, 0.1, 0.9]；這說明我們分類器準確率為100%，這是最好的情況！

繪製roc曲線採用的是閾值是動態變化的，將**出的標籤值按從大到小排序，然後依次取值作為閾值。

假如測試集標籤不變，我們**的結果為：[0.2, 0.4, 0.7, 0.6, 0.9] 有兩個是錯誤的。我們對其從大到小排序並返回索引值為[4,2,3,1,0]

接下來我們開始一步步繪製：規定x軸的移動步長為(1/fp+tn),其實就是真實資料集標籤中，負樣本的個數；y軸的移動步長為(1/tp+fn),其實就是真實資料集標籤中，正樣本的個數。

具體操作如下：

大致過程就是這樣，可以看到核心思想就是!!!每增加乙個真正樣本（tp）y軸就會移動一步；每增加乙個假正樣本（np）x軸就會移動一步。

所以我理解的就是，如果是乙個準確率為100%的分類器，按照從大到小對**值排序；這個roc曲線就會先一直移動y軸，直到移動到（0,1）座標，其次開始移動x軸到（1,0）座標，構成乙個直角。

但事實往往是，在y軸移動的過程中，挨個對排好序的索引值對應的真實資料集標籤檢查時，發現這個索引對應的值不是正樣本，所以就被迫改變繪製路徑，水平移動一步！！！

所以如果移動的步長不算太小，可以看出roc曲線是鋸齒狀的：

同樣，涉及到的auc（area unser the curve）就是指的是曲線下方的面積，就是無數個小矩形的和。肯定是越大越好了~

2020/4/2 bygsq

分類器評估方法 ROC曲線

注本文是人工智慧研究網的學習筆記最好的模型在左上角，代表100 的靈敏度和0 的虛警率，被稱為完美分類器。乙個隨機猜測模型。會給出從左下角到右上角的沿著對角線的點對角線被稱作line of no discrimation 對角線上的的點代表了好的分配結果，對角線以下的點代表不好的分配結果，但...

統計建模分類效能評價（混淆矩陣和ROC曲線）

在資料本身嚴重有偏的情況下，準確率很容易達到乙個很高的數值，因此需要尋找另外的效能評價方法。混淆矩陣將資料按待分的類別分組後，統計各組中模型分類或結果的矩陣可直接獲取鳶尾花資料集 plt.figure figsize 12 15 for n in range 4 print n for m i...

混淆矩陣與PR曲線 ROC曲線的理解與使用

1.混淆矩陣對於分類器而言，乙個比較好的評估指標是混淆矩陣。下面通過乙個具體展示在二分類器中的應用。neg 非a pos a neg 非a樣本 90 tn 10 fp pos a樣本 30 fn 70 tp 其中neg表示非a類，pos表示a類。從中可以得知，此分類器更能有效地識別非a樣本，而...

分類器評估 混淆矩陣和ROC曲線

分類器評估方法 ROC曲線

統計建模 分類效能評價（混淆矩陣和ROC曲線）

混淆矩陣與PR曲線 ROC曲線的理解與使用

相關推薦

分類器評估混淆矩陣和ROC曲線

統計建模分類效能評價（混淆矩陣和ROC曲線）