本篇博文簡要討論機器學習二分類問題中的混淆矩陣、roc以及auc評估指標;作為評價模型的重要參考,三者在模型選擇以及評估中起著指導性作用。
按照循序漸進的原則,依次討論混淆矩陣、roc和auc:
設定乙個機器學習問題情境:給定一些腫瘤患者樣本,構建乙個分類模型來**腫瘤是良性還是惡性,顯然這是乙個二分類問題。
當分類模型選定以後,將其在測試資料集上進行評估,分別可以得到以下評估指標:
tp表示**為良性,真實情況是良性的樣例數;
fn表示**為惡性,真實情況是良性的樣例數;
fp表示**為良性,真實情況是惡性的樣例數;
tn表示**為惡性,真實情況是惡性的樣例數;
以上四類資料構成混淆矩陣。
在混淆矩陣的基礎上,進一步地定義兩個引數。
按照下式定義fpr引數
fpr表示,在所有的惡性腫瘤中,被**成良性的比例。稱為偽陽性率。偽陽性率告訴我們,隨機拿乙個惡性的腫瘤樣本,有多大概率會將其**成良性腫瘤。顯然fpr越小越好。
按照下式定義tpr引數
tpr表示,在所有良性腫瘤中,被**為良性的比例。稱為真陽性率。真陽性率告訴我們,隨機拿乙個良性的腫瘤樣本時,有多大概率會將其**為良性腫瘤。顯然tpr越大越好。
由上,乙個混淆矩陣對應一對(fpr,tpr)
需要明確的是,fpr和tpr是建立在類別明確的**結果之上的,即分類模型明確地指出待**樣本的類別。
然而,在二分類問題(0,1)中,一般模型最後的輸出是乙個概率值,表示結果是1的概率。此時需要確定乙個閾值,若模型的輸出概率超過閾值,則歸類為1;若模型的輸出概率低於閾值,則歸類為0。
不同的閾值會導致分類的結果不同,也就是混淆矩陣有差,fpr和tpr也就不同。
當閾值從0開始慢慢移動到1的過程,就會形成很多對(fpr, tpr)的值,將它們畫在座標系上,就是所謂的roc曲線了。
得到roc曲線後,就可以計算曲線下方的面積,計算出來的面積就是auc值。
一般而言,auc越大,模型的效能越好。
二分類問題中混淆矩陣 PR以及AP評估指標
仿照上篇博文對於混淆矩陣 roc和auc指標的 本文簡要討論機器學習二分類問題中的混淆矩陣 pr以及ap評估指標 實際上,roc,auc 與 pr,ap 指針對具有某種相似性。按照循序漸進的原則,依次討論混淆矩陣 pr和ap 設定乙個機器學習問題情境 給定一些腫瘤患者樣本,構建乙個分類模型來 腫瘤是...
二分類問題混淆矩陣和相關引數
的類 實際的類 f tp f t p f fn f fn f fp f fp f tn f tn 或者稱靈敏度 sensitivity 定義為被模型正確 的正樣本的比例,即 tp r tp tp f n tpr tpt p fn 或者稱特指率 specificity 定義為被模型正確 的負樣本的比例...
二分類混淆矩陣結構 從混淆矩陣到樣本不平衡分類指標
confusing matrix 也譯作混淆矩陣,是一項古老經典的統計技術,見下圖。classification代表分類器判斷的結果,positive 是 陽性 真等 negative 非 陰性 假等 condition代表事實情況,true 事實為真 false 事實是假 把classificat...