當我們有一堆模型,哪個是最好的呢?
一、定義
錯誤率精度(是不是就是正確率?)
誤差訓練誤差(經驗誤差)
泛化誤差
二、過擬合與欠擬合
過擬合:學到了過多東西,那些特徵並不是正確的。
欠擬合:有些特徵沒有學到
過擬合:比較難解決
欠擬合:比較好解決,比如決策樹中擴充套件分支、神經網路中增加訓練輪數
怎樣評價乙個模型呢?無法直接得到泛化誤差,但是訓練誤差有存在過擬合現象。
三、建立測試集
我們可以建立乙個測試集進行評估,測試集最好與訓練集互斥!
1、留出法
留出一部分資料作為測試集
注意測試集和訓練集要盡可能保證分布相同,至少要比例相同,比如正負樣本比例。
那麼取樣方法為「分層取樣」
如果只劃分一次,會有方差,評估結果也有差別
所以多隨機劃分幾次,然後取平均值
有乙個矛盾:如果訓練集資料多,則評估不準確;如果測試集資料增多,則效果不好,一般訓練集取2/3或4/5
2、交叉驗證法
將乙個資料集分為k份(盡量保證分布一致性),每次取k-1個子集做訓練集,1個做測試集,進行k組訓練,最後結果取均值。
穩定性和保真性取決於k
分為k組時存在不同情況,所以要多分幾次,每次再訓練k次
留一法:每個樣本為乙個子集
優點:樣本分佈一致,評估結果比較準確???
缺點:訓練k-1次開銷大
3、自助法
留出法和交叉驗證法訓練數量變小
d有m個樣本,從d中隨機抽乙個樣本,再放回,抽m次,得到m大小的d』
d』為訓練集,d\d』為測試集(未在訓練集**現過,36.8%),
優點:對於資料集較小或不易劃分訓練集、測試集時可用;可多次獲取資料集,用於整合學習
缺點:改變了分布,有估計誤差,資料量夠的時候不使用
四、調參
調參一般劃定範圍然後每段選乙個數,雖然不是最優,但是省時間。
一般劃出驗證集用於選擇模型和引數
五、效能度量
泛化能力的衡量標準
1、錯誤率和精度
2、查準率、查全率、f
查準率p:查出判定為好的西瓜中有多少是好的,p = tp/(tp+fp)。
查全率r:好西瓜中有多少被查出來,r = tp/(tp+fn)。
f:p、r的共同衡量,f1 = 2pr/(p+r),f#=(1+#2)pr/(#2p+r),#>1時查全率r有更大影響,#<1時查準率p有更大影響。
平衡點(bep):p、r是矛盾的。
當有多個二分類混淆矩陣時,怎麼看p和r?
1)比如多次試驗
2)多個資料集上實驗
3)多分類問題,兩兩組合
方法一:將p、r去平均,再算f1
方法二:tp\fp\tn\fn取平均,再算p\r\f1
2.3.3
將樣本按概率大小進行排序,然後逐個選為截斷點
roc(receiver oparating characteristic)受試者工作特徵
縱軸為真正例率 tpr = tp/(tp+fn)
橫軸為假正例率 fpr = fp/(tn+fp)
模型評估與模型選擇
模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...