模式識別二 分類器的效能評價

2021-07-24 22:20:03 字數 2464 閱讀 4134

文章**:

最近開始了模式識別的學習,對模式和模式類的概念有乙個基本的了解,並使用matlab實現一些模式類的生成。而接下來如何對這些模式進行分類成為了學習的第二個重點。我們都知道,乙個典型的模式識別系統是由特徵提取和模式分類兩個階段組成的,而其中模式分類器(classifier)的效能直接影響整個識別系統的效能。 >因此有必要**一下如何評價分類器的效能,這是乙個長期探索的過程.

以下例子假定x是乙個連續隨機變數,對於類別狀態

這裡假設先驗概率已知,對於乙個二分類問題,可以定義以下四個統計值:

可以將例項分成正類(positive)或負類(negative)。這樣會出現四種分類結果:

tp(true positive):正確的正例,乙個例項是正類並且也被判定成正類; 

fn(false negative):錯誤的反例,漏報,本為正類但判定為假類; 

fp(false positive):錯誤的正例,誤報,本為假類但判定為正類; 

tn(true negative):正確的反例,乙個例項是假類並且也被判定成假類;

根據以上四種情況,引出以下公式:

敏感性,又稱真正類率(true positive rate ,tpr),它表示了分類器所識別出的正例項佔所有正例項的比例。計算公式為:

特異性,又稱負正類率(false positive rate, fpr),它表示的是分類器錯認為正類的負例項佔所有負例項的比例。計算公式為:

除此之外,還有真負類率(true negative rate,tnr),計算公式為:

負負類率?(false negative rate,fnr),計算公式為:

這兩個公式用於f score效能評價。

接收機工作特徵曲線 (receiver operating characteristic curve,簡稱roc曲線),又稱為感受性曲線(sensitivity curve)。roc曲線是根據一系列不同的二分類方式,將tpr定義為x軸,將fpr定義為y軸而繪製的曲線。曲線下面積越大,分類的準確性就越高。在roc曲線上,最靠近座標圖左上方的點為靈敏性和特異性均較高的臨界值。

roc曲線上各點反映著相同的感受性,它們都是對同一訊號刺激的反應,只不過是在幾種不同的判定標準下所得的結果而已。接受者操作特性曲線就是以虛報概率為橫軸,擊中概率為縱軸所組成的座標圖,和被試在特定刺激條件下由於採用不同的判斷標準得出的不同結果畫出的曲線。

roc曲線最初源於20世紀70年代的訊號檢測理論,它反映了fpr與tpr之間權衡的情況,通俗地來說,即在tpr隨著fpr遞增的情況下,誰增長得更快,快多少的問題。tpr增長得越快,曲線越往上屈,auc就越大,反映了模型的分類效能就越好。當正負樣本不平衡時,這種模型評價方式比起一般的精確度評價方式的好處尤其顯著。乙個典型的roc曲線下圖所示:

更多關於roc曲線的經典例子可參考:

混淆矩陣(confusion matrix),在人工智慧領域中,就是用於總結有監督學習的分類結果的矩陣。沿著主對角線上的項表示正確分類的總數,其他非主對角線的項表示分類的錯誤數,如下表所示。二分問題存在「錯誤接受」和「錯誤拒絕」兩種不同型別的錯誤。若將二分問題的混淆矩陣歸一化,就是乙個關於0和1二值的離散變數的聯合分布概率。對於二分類問題來說,混淆矩陣可以用下面的形式表示:

由於分類準確率有時並不能很好地突出樣本集的特點以及判斷乙個分類器的效能,對於二分類問題,可以使用

這兩個引數來評價分類器的效能。f score的定義可參照一篇名為:mining comparative sentences and relations的**。其中tnr和fnr分別用precision, recall來代替。

一般認為,f評分越高則分類器對於正樣本是分類效果越好。需要注意的是,tnr和fnr會互相影響,因此,單獨使用乙個引數來評價分類器的效能,並不能全面的評價乙個分類器。。

二分類問題評價指標

當乙個分類器建立後,要對其分類準確度進行評價。分類器的效能評價不僅能夠指導分類器的訓練過程,而且可以比較不同分類器的效能。本文主要介紹混淆矩陣和常用的幾個評價指標。對於乙個二分類問題,可以得到如下的混淆矩陣,行表示資料在模型上的 類別 predicted class predicted condit...

模式識別 貝葉斯分類器的訓練

貝葉斯分類決策規則 依據計算得到的後驗概率對樣本進行歸類 條件 先驗概率和類條件概率已知。因此只要知道 p w j p w j p wj 和p x wj p x w j p x wj 就可以設計出貝葉斯分類器,而p w j p w j p wj 和p x wj p x w j p x wj 並不能預...

二分類模型評價指標 AUC

auc的含義和計算 auc針對二分類模型效果進行評價,二分類模型有時可能得到的是乙個概率值,這個概率值表明為 0或1類 的可能性 不同於決策樹分類,我們會直接得到乙個確切分類 我們劃定乙個具體概率值p,大於則為正,小於則為負,然後使用acc或其他指標評價,其實這樣做有很大漏洞,我們不能準確找到這個具...