混淆矩陣(confusion matrix)

2021-07-11 20:55:41 字數 1336 閱讀 6393

乙個完美的分類模型是,將實際上是good的例項**成good,將bad的例項**稱bad。對於實際應用中的分類模型,可能**錯誤例項型別,因此我們需要知道到底**對了多少例項,**錯了多少例項。混淆矩陣就是將這些資訊放在乙個表中,便於直觀的觀測和分析。

在分類問題中,**的情形存在如下四種:

1. good—》good: true positive型別, 設數目為a;

2. good-》bad: 

false negative型別,設數目為b;

3. bad-》bad: 

true negative型別, 設數目為c;

4. bad-》good: 

false positive型別,設數目為d;

因此 實際的good例項數目為:a+b 

實際的bad數目為:c+d

**的good例項數目為:a+d 

**的bad數目為:b+c

幾組常用的評估指標:

1. 準確率accuracy: 針對整個**情況。**正確的/總例項數 = (a+c)/(a+b+c+d)

2. 誤分類率error rate: 針對整個情況。**錯誤的/總例項數 = (b+d)/(a+b+c+d)

3. 召回率recall/敏感性sensitivity: 針對good的正確覆蓋了。**對的good例項/實際good的例項 = a/(a+b)

4. 特異性specificity: 針對bad的**正確率。**對的bad例項/實際的bad例項數 = c/(c+d)

5. 命中率precision: 針對good的**正確率。**對的good例項/**的good例項數 = a/(a+d)

6.type i error:false discovery rate(fdr, false alarm) =1- precision

7.type ii error: miss rate =1- sensitivity注:

1. sensitivity vs. specificity

2. recall vs. precision

3. accuracy vs. error rate

4. type i error vs. type ii error

5. 針對precision和recall有f1指標,用於實現兩者之間的tradeoff。

混淆矩陣 Confusion Matrix

混淆矩陣是除了roc曲線和auc之外的另乙個判斷分類好壞程度的方法。以下有幾個概念需要先說明 tp true positive 真實為0,也為0 fn false negative 真實為0,為1 fp false positive 真實為1,為0 tn true negative 真實為1,也為1...

初學混淆矩陣

在中,混淆矩陣 confusion matrix 是視覺化工具,一般也叫做匹配矩陣。混淆矩陣的每一列代表了 類別,每一行代表了資料的真實歸屬類別,每一列的總數表示 為該類別的資料的數目 即通過演算法被分為該類的數目 每一行的資料總數表示該類別的資料例項的數目 如下表,第一行第一列中的43表示有43個...

混淆矩陣 confusion matrix

我們以乙個二分類問題舉例說明 x x1,x2 x100 y 真實 1,0,0,0,1,1,1 假設60個1,40個0 y 0,1,0,1 70個1,30個0 假設我們 中的70個正例中只有50個是真正例 即 的真結果和實際情況一樣 假正例 70 50 20 故名思意,即 的正例和實際情況不一樣 查準...