f為模
型,d為
資料集,
m為樣本
數量,p
(x)表
示概率密
度函式f為模型,d為資料集,m為樣本數量,p(x)表示概率密度函式
f為模型,d
為資料集
,m為樣
本數量,
p(x)
表示概率
密度函式
錯誤率:
精度:
用積分形式則可分別表示為:
真實情況和**情況如下:
一般來說,precision和recall是一對矛盾的度量,一方高的時候另一方往往較低。
我們可以按照模型的**結果(每個樣例是positive class的可能性)來對樣例進行排序。排在前面
的是模型認為最可能 是正例的樣本,排在最後的則是模型認為最不可能是正例的樣本。然後可以按順序把每個樣本作為**的正反例的分界線(即使用不同的分類閾值),即可算出對應的precision和recall,以這兩者作圖,即可得出p-r曲線。
如上圖,a曲線完全包住了c曲線,很容易看出來a模型要比c模型好。但對於a,b這兩種曲線產生交叉的兩個模型則難以斷言孰優孰劣。因此,人們設計了一些綜合考慮precision和recall的效能度量。
"平衡點 " (break-event point,簡稱 bep)就是這樣乙個度量,它是precision == recall時的取值。例如上圖中學習器 c 的bep是0.64,而基於bep的比較,可認為學習器a由於b。但是這種度量太過簡單,更常用的是f1度量。
與p-r曲線使用precision, recall為縱橫軸不同,roc 曲線的縱軸是真正例率(true positive rate,簡稱 tpr),橫軸是假正例率(false positive rate,簡稱 fpr) 。兩者分別定義為:
現實任務中通常是利用有限個測試樣例來繪製 roc 圖,此時僅能獲得有限個(真正例率,假正例率)座標對,無法產生光滑的roc曲線,只能繪製出如近似的 roc 曲線:
進行學習器的比較時,與p-r圖相似,若乙個學習器的roc曲線被另乙個學習器的曲線完全包住,則可斷言後者的效能優於前者;若兩個學習器的roc曲線發生交叉,則難以一般性地斷言兩者孰優孰劣 . 此時如果一定要進行比較,則較為合理的判據是 比較roc曲線下的面積,即auc(area under roc curve) 。auc可估算為:
模型評估與模型選擇
模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...