機器學習中的PR曲線和ROC曲線

2021-09-05 11:49:32 字數 2394 閱讀 3381

主要是我對周志華《機器學習》第二章模型估計與選擇中一些內容的總結

1.查準率、查全率和f1

對於二分類問題,可將樣例根據其真實類別與學習器**類別的組合劃分為真正例(tp),假反例(fn),假正例(fp),真反例(tn),具體分類結果如下 

查準率p和查全率r分別定義為:

查準率關心的是」**出正例的正確率」即從正反例子中挑選出正例的問題。 

查全率關心的是」**出正例的保證性」即從正例中挑選出正例的問題。

這兩者是一對矛盾的度量,查準率可以認為是」寧缺毋濫」,適合對準確率要求高的應用,例如商品推薦,網頁檢索等。查全率可以認為是」寧錯殺一百,不放過1個」,適合類似於檢查走私、逃犯資訊等。

下圖為查準率-查全率曲線(p-r圖)

若乙個學習器的p-r曲線被另乙個學習器完全」包住」,則後者的效能優於前者。當存在交叉時,可以計算曲線圍住面積,但比較麻煩,平衡點(查準率=查全率,bep)是一種度量方式。

但bep還是過於簡化了些,更常用的是f1和fp度量,它們分別是查準率和查全率的調和平均和加權調和平均。定義如下 

顯然,當學習器a的f1值比學習器高,那麼a的bep值也比b高(將p=r代入f1公式即可)

2.roc和auc

很多學習器是為測試樣本產生乙個實值或概率**,然後將這個**值與乙個分類閾值進行比較,若大於閾值分為正類,否則為反類,因此分類過程可以看作選取乙個截斷點。

不同任務中,可以選擇不同截斷點,若更注重」查準率」,應選擇排序中靠前位置進行截斷,反之若注重」查全率」,則選擇靠後位置截斷。因此排序本身質量的好壞,可以直接導致學習器不同泛化效能好壞,roc曲線則是從這個角度出發來研究學習器的工具。

曲線的座標分別為真正例率(tpr)和假正例率(fpr),定義如下

下圖為roc曲線示意圖,因現實任務中通常利用有限個測試樣例來繪製roc圖,因此應為無法產生光滑曲線,如右圖所示。

繪圖過程很簡單:給定m個正例子,n個反例子,根據學習器**結果進行排序,先把分類閾值設為最大,使得所有例子均**為反例,此時tpr和fpr均為0,在(0,0)處標記乙個點,再將分類閾值依次設為每個樣例的**值,即依次將每個例子劃分為正例。設前乙個座標為(x,y),若當前為真正例,對應標記點為(x,y+1/m),若當前為假正例,則標記點為(x+1/n,y),然後依次連線各點。

下面舉個繪圖例子: 

有10個樣例子,5個正例子,5個反例子。有兩個學習器a,b,分別對10個例子進行**,按照**的值(這裡就不具體列了)從高到低排序結果如下: 

a:[反正正正反反正正反反] 

b : [反正反反反正正正正反] 

按照繪圖過程,可以得到學習器對應的roc曲線點 

a:y:[0,0,0.2,0.4,0.6,0.6,0.6,0.8,1,1,1] 

x:[0,0.2,0.2,0.2,0.2,0.4,0.6,0.6,0.6,0.8,1] 

b:y:[0,0,0.2,0.2,0.2,0.2,0.4,0.6,0.8,1,1] 

x:[0,0.2,0.2,0.4,0.6,0.8,0.8,0.8,0.8,0.8,1] 

繪製曲線結果如下:

藍色為學習器a的roc曲線,其包含了b的曲線,說明它效能更優秀,這點從a,b對10個例子的排序結果顯然是能看出來的,a中正例排序高的數目多於b。此外,如果兩個曲線有交叉,則需要計算曲線圍住的面積(auc)來評價效能優劣。

3.偏差和方差

泛化誤差可以分解為偏差、方差與雜訊之和

偏差度量了學習演算法的期望**和真實結果偏離程度。

方差度量了同樣大小的訓練集的變動所導致的學習效能的變化,即刻畫了資料擾動所造成的影響。

雜訊可以認為資料自身的波動性,表達了目前任何學習演算法所能達到泛化誤差的下限。

偏差大說明欠擬合,方差大說明過擬合。

機器學習中的PR曲線和ROC曲線

主要是我對周志華 機器學習 第二章模型估計與選擇中一些內容的總結 對於二分類問題,可將樣例根據其真實類別與學習器 類別的組合劃分為真正例 tp 假反例 fn 假正例 fp 真反例 tn 具體分類結果如下 查準率p和查全率r分別定義為 查準率關心的是 出正例的正確率 即從正反例子中挑選出正例的問題。查...

機器學習 PR曲線, ROC曲線

在機器學習領域,如果把accuracy作為衡量模型效能好壞的唯一指標,可能會使我們對模型效能產生誤解,尤其是當我們模型輸出值是乙個概率值時,更不適宜只採取accuracy作為衡量模型性泛化能的指標 這篇博文會為大家介紹兩種比較二分決策模型效能的方法pr曲線,roc曲線 對於分類問題我們可以直接 輸入...

機器學習筆記 PR曲線和ROC曲線

對於二分類問題,根據分類結果能形成 混淆矩陣 p是查準率,r是查全率,定義如下 一般來說,查準率和查全率是一對矛盾的度量,書上給出的 p r圖 比較平滑,現實中區域性波動較大。roc全稱是 受試者工作特徵 曲線,縱軸是 真正例率 tpr,橫軸是 假正例率 fpr,兩者同樣基於混淆矩陣,定義如下 可以...