混淆矩陣(Confusion Matrix)分析

2021-08-03 19:59:09 字數 2466 閱讀 5696

content

confusionmatrix

example

talbe ofconfusion

preference

confusion matrix

在機器學習領域,混淆矩陣(

confusion matrix

),又稱為可能性**或是錯誤矩陣。它是一種特定的矩陣用來呈現演算法效能的視覺化效果,通常是監督學習(非監督學習,通常用匹配矩陣:

matching matrix

)。其每一列代表**值,每一行代表的是實際的類別。這個名字**於它可以非常容易的表明多個類別是否有混淆(也就是乙個

class

被**成另乙個

class)。

example

假設有乙個用來對貓(

cats

)、狗(

dogs

)、兔子(

rabbits

)進行分類的系統,混淆矩陣就是為了進一步分析效能而對該演算法測試結果做出的總結。假設總共有

27 只動物:

8只貓,

6條狗,

13只兔子。結果的混淆矩陣如下圖:

在這個混淆矩陣中,實際有

8只貓,但是系統將其中

3只**成了狗;對於

6條狗,其中有

1條被**成了兔子,

2條被**成了貓。從混淆矩陣中我們可以看出系統對於區分貓和狗存在一些問題,但是區分兔子和其他動物的效果還是不錯的。所有正確的**結果都在對角線上,所以從混淆矩陣中可以很方便直觀的看出**有錯誤,因為他們呈現在對角線外面。

table of confusion

在**分析中,混淆**(有時候也稱為混淆矩陣),是由

false positives

,falsenegatives

,true positives

和true negatives

組成的兩行兩列的**。它允許我們做出更多的分析,而不僅僅是侷限在正確率。準確率對於分類器的效能分析來說,並不是乙個很好地衡量指標,因為如果資料集不平衡(每一類的資料樣本數量相差太大),很可能會出現誤導性的結果。例如,如果在乙個資料集中有

95只貓,但是只有

5條狗,那麼某些分類器很可能偏向於將所有的樣本**成貓。整體準確率為

95%,但是實際上該分類器對貓的識別率是

100%

,而對狗的識別率是0%。

對於上面的混淆矩陣,其對應的對

貓這個類別

的混淆**如下:

假定乙個實驗有p個

positive

例項,在某些條件下有n 個

negative

例項。那麼上面這四個輸出可以用下面的偶然性**(或混淆矩陣)來表示:

公式陳列、定義如下:

true positive(tp)

eqv. with hit

true negative(tn)

eqv. with correct rejection

false positive(fp)

eqv. with false alarm, type i error

false negative(fn)

eqv. with miss, type ii error

sensitivity ortrue positive rate(tpr)

eqv. with hit rate, recall

tpr = tp/p = tp/(tp + fn)

specificity(spc)ortrue negative rate(tnr)

spc = tn/n = tn/(fp + tn)

precision orpositive prediction value(ppv)

ppv = tp/(tp + fp)

negative predictive value(npv)

npv = tn/(tn + fn)

fall-out o***lse positive rate(fpr)

fpr = fp/n = fp/(fp + tn)

false discovery rate(fdr)

fdr = fp/(fp + tp) = 1 - ppv

miss rate o***lse negative rate(fnr)

fnr = fn/p = fn/(fn + tp)

accuracy(acc)

acc = (tp + tn)/(p + n)

preference

wiki:

混淆矩陣(confusion matrix)

乙個完美的分類模型是,將實際上是good的例項 成good,將bad的例項 稱bad。對於實際應用中的分類模型,可能 錯誤例項型別,因此我們需要知道到底 對了多少例項,錯了多少例項。混淆矩陣就是將這些資訊放在乙個表中,便於直觀的觀測和分析。在分類問題中,的情形存在如下四種 1.good good t...

混淆矩陣 Confusion Matrix

混淆矩陣是除了roc曲線和auc之外的另乙個判斷分類好壞程度的方法。以下有幾個概念需要先說明 tp true positive 真實為0,也為0 fn false negative 真實為0,為1 fp false positive 真實為1,為0 tn true negative 真實為1,也為1...

初學混淆矩陣

在中,混淆矩陣 confusion matrix 是視覺化工具,一般也叫做匹配矩陣。混淆矩陣的每一列代表了 類別,每一行代表了資料的真實歸屬類別,每一列的總數表示 為該類別的資料的數目 即通過演算法被分為該類的數目 每一行的資料總數表示該類別的資料例項的數目 如下表,第一行第一列中的43表示有43個...