1.混淆矩陣:判斷分類模型好壞
混淆矩陣是roc曲線繪製的基礎,同時它也是衡量分型別模型準確度中最基本,最直觀,計算最簡單的方法。
一句話解釋版本:
混淆矩陣就是分別統計分類模型歸錯類,歸對類的觀測值個數,然後把結果放在乙個表裡展示出來。這個表就是混淆矩陣。
混淆矩陣是評判模型結果的指標,屬於模型評估的一部分。此外,混淆矩陣多用於判斷分類器(classifier)的優劣,適用於分型別的資料模型,如分類樹(classification tree)、邏輯回歸(logistic regression)、線性判別分析(linear discriminant analysis)等方法。
在分型別模型評判的指標中,常見的方法有如下三種:
混淆矩陣(也稱誤差矩陣,confusion matrix)
roc曲線
auc面積
(1)混淆矩陣的指標
**性分類模型,肯定是希望越準越好。那麼,對應到混淆矩陣中,那肯定是希望tp與tn的數量大,而fp與fn的數量小。所以當我們得到了模型的混淆矩陣後,就需要去看有多少觀測值在第
二、四象限對應的位置,這裡的數值越多越好;反之,在第
一、三象限對應位置出現的觀測值肯定是越少越好。
(2)二級指標
但是,混淆矩陣裡面統計的是個數,有時候面對大量的資料,光憑算個數,很難衡量模型的優劣。因此混淆矩陣在基本的統計結果上又延伸了如下4個指標,我稱他們是二級指標(通過最底層指標加減乘除得到的):
準確率(accuracy)—— 針對整個模型
精確率(precision)
靈敏度(sensitivity):就是召回率(recall)
特異度(specificity)
我用**的方式將這四種指標的定義、計算、理解進行了彙總:
通過上面的四個二級指標,可以將混淆矩陣中數量的結果轉化為0-1之間的比率。便於進行標準化的衡量。
在這四個指標的基礎上在進行拓展,會產令另外乙個**指標
(3)**指標
這個指標叫做f1 score。他的計算公式是:
其中,p代表precision,r代表recall。
f1-score指標綜合了precision與recall的產出的結果。f1-score的取值範圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結果最差。
(4)混淆矩陣的例項
當分類問題是二分問題是,混淆矩陣可以用上面的方法計算。當分類的結果多於兩種的時候,混淆矩陣同時適用。
一下面的混淆矩陣為例,我們的模型目的是為了**樣本是什麼動物,這是我們的結果:
通過混淆矩陣,我們可以得到如下結論:
accuracy
在總共66個動物中,我們一共**對了10 + 15 + 20=45個樣本,所以準確率(accuracy)=45/66 = 68.2%。
以貓為例,我們可以將上面的圖合併為二分問題:
precision
所以,以貓為例,模型的結果告訴我們,66只動物裡有13只是貓,但是其實這13只貓只有10只**對了。模型認為是貓的13只動物裡,有1條狗,兩隻豬。所以,precision(貓)= 10/13 = 76.9%
recall
以貓為例,在總共18只真貓中,我們的模型認為裡面只有10只是貓,剩下的3只是狗,5只都是豬。這5只八成是橘貓,能理解。所以,recall(貓)= 10/18 = 55.6%
specificity
以貓為例,在總共48只不是貓的動物中,模型認為有45只不是貓。所以,specificity(貓)= 45/48 = 93.8%。
雖然在45只動物裡,模型依然認為錯判了6只狗與4只貓,但是從貓的角度而言,模型的判斷是沒有錯的。
f1-score
通過公式,可以計算出,對貓而言,f1-score=(2 * 0.769 * 0.556)/( 0.769 + 0.556) = 64.54%
同樣,我們也可以分別計算豬與狗各自的二級指標與**指標值。
多分類任務的混淆矩陣和評價指標
之前一直不明白多分類任務的混淆矩陣,今天研究了一下。拿乙個三分類任務來說 cat dog bird 有8個 結果 值 dog,dog,cat cat,cat,dog,bird,cat 真實值 dog,cat,cat,cat,bird,bird,cat,cat 要對每乙個類別做混淆矩陣。拿cat類來說...
機器學習模型評價指標 混淆矩陣
在機器學習領域中,混淆矩陣 confusion matrix 是一種評價分類模型好壞的形象化展示工具。其中,矩陣的每一列表示的是模型 的樣本情況 矩陣的每一行表示的樣本的真實情況。1.混淆矩陣的舉例 例如用乙個分類模型來判別乙個水果是蘋果還是梨,混淆矩陣將會模型的 結果總結成如下表所示的 模型 結果...
分類器評價指標
by the way,classic post like 分類指標準確率 precision 和正確率 accuracy 的區別 精度和召回率是廣泛用於資訊檢索和統計學分類領域的兩個度量值,用來評價結果的質量。其中精度是檢索出相關文件數與檢索出的文件總數的比率,衡量的是檢索系統的查準率 召回率是指檢...