混淆矩陣評價指標 分類效果評價指標一混淆矩陣

2021-10-16 20:16:43 字數 1911 閱讀 7464

1.混淆矩陣:判斷分類模型好壞

混淆矩陣是roc曲線繪製的基礎,同時它也是衡量分型別模型準確度中最基本,最直觀,計算最簡單的方法。

一句話解釋版本:

混淆矩陣就是分別統計分類模型歸錯類,歸對類的觀測值個數,然後把結果放在乙個表裡展示出來。這個表就是混淆矩陣。

混淆矩陣是評判模型結果的指標,屬於模型評估的一部分。此外,混淆矩陣多用於判斷分類器(classifier)的優劣,適用於分型別的資料模型,如分類樹(classification tree)、邏輯回歸(logistic regression)、線性判別分析(linear discriminant analysis)等方法。

在分型別模型評判的指標中,常見的方法有如下三種:

混淆矩陣(也稱誤差矩陣,confusion matrix)

roc曲線

auc面積

(1)混淆矩陣的指標

**性分類模型,肯定是希望越準越好。那麼,對應到混淆矩陣中,那肯定是希望tp與tn的數量大,而fp與fn的數量小。所以當我們得到了模型的混淆矩陣後,就需要去看有多少觀測值在第

二、四象限對應的位置,這裡的數值越多越好;反之,在第

一、三象限對應位置出現的觀測值肯定是越少越好。

(2)二級指標

但是,混淆矩陣裡面統計的是個數,有時候面對大量的資料,光憑算個數,很難衡量模型的優劣。因此混淆矩陣在基本的統計結果上又延伸了如下4個指標,我稱他們是二級指標(通過最底層指標加減乘除得到的):

準確率(accuracy)—— 針對整個模型

精確率(precision)

靈敏度(sensitivity):就是召回率(recall)

特異度(specificity)

我用**的方式將這四種指標的定義、計算、理解進行了彙總:

通過上面的四個二級指標,可以將混淆矩陣中數量的結果轉化為0-1之間的比率。便於進行標準化的衡量。

在這四個指標的基礎上在進行拓展,會產令另外乙個**指標

(3)**指標

這個指標叫做f1 score。他的計算公式是:

其中,p代表precision,r代表recall。

f1-score指標綜合了precision與recall的產出的結果。f1-score的取值範圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結果最差。

(4)混淆矩陣的例項

當分類問題是二分問題是,混淆矩陣可以用上面的方法計算。當分類的結果多於兩種的時候,混淆矩陣同時適用。

一下面的混淆矩陣為例,我們的模型目的是為了**樣本是什麼動物,這是我們的結果:

通過混淆矩陣,我們可以得到如下結論:

accuracy

在總共66個動物中,我們一共**對了10 + 15 + 20=45個樣本,所以準確率(accuracy)=45/66 = 68.2%。

以貓為例,我們可以將上面的圖合併為二分問題:

precision

所以,以貓為例,模型的結果告訴我們,66只動物裡有13只是貓,但是其實這13只貓只有10只**對了。模型認為是貓的13只動物裡,有1條狗,兩隻豬。所以,precision(貓)= 10/13 = 76.9%

recall

以貓為例,在總共18只真貓中,我們的模型認為裡面只有10只是貓,剩下的3只是狗,5只都是豬。這5只八成是橘貓,能理解。所以,recall(貓)= 10/18 = 55.6%

specificity

以貓為例,在總共48只不是貓的動物中,模型認為有45只不是貓。所以,specificity(貓)= 45/48 = 93.8%。

雖然在45只動物裡,模型依然認為錯判了6只狗與4只貓,但是從貓的角度而言,模型的判斷是沒有錯的。

f1-score

通過公式,可以計算出,對貓而言,f1-score=(2 * 0.769 *  0.556)/( 0.769 +  0.556) = 64.54%

同樣,我們也可以分別計算豬與狗各自的二級指標與**指標值。

多分類任務的混淆矩陣和評價指標

之前一直不明白多分類任務的混淆矩陣,今天研究了一下。拿乙個三分類任務來說 cat dog bird 有8個 結果 值 dog,dog,cat cat,cat,dog,bird,cat 真實值 dog,cat,cat,cat,bird,bird,cat,cat 要對每乙個類別做混淆矩陣。拿cat類來說...

機器學習模型評價指標 混淆矩陣

在機器學習領域中,混淆矩陣 confusion matrix 是一種評價分類模型好壞的形象化展示工具。其中,矩陣的每一列表示的是模型 的樣本情況 矩陣的每一行表示的樣本的真實情況。1.混淆矩陣的舉例 例如用乙個分類模型來判別乙個水果是蘋果還是梨,混淆矩陣將會模型的 結果總結成如下表所示的 模型 結果...

分類器評價指標

by the way,classic post like 分類指標準確率 precision 和正確率 accuracy 的區別 精度和召回率是廣泛用於資訊檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率 召回率是指檢...