1、過擬合與欠擬合
(1)過擬合
定義:學習到了樣本資料中不具有一般性的特徵所導致的模型在測試集上泛化能力的下降
解決辦法:過擬合無法避免,我們只能緩解
(2)欠擬合
定義:學習能力不足,沒有學習到樣本資料中的具有一般性的特徵。
解決辦法:調整學習步長,增加訓練次數等。
2、資料集劃分
(1)訓練集、驗證集、測試集
訓練集:用來訓練學習器引數的資料樣本集合
驗證集:是模型訓練過程中單獨留出的樣本集,它可以用於調整模型的超引數和用於對模型的能力進行初步評估。
測試集:測試學習器對於新樣本的判別能力。
這篇部落格對於這三者的概念講的很清楚
傳送門
(2)資料集的劃分方法
將d劃分為k個互斥的資料子集,又根據不同的劃分方式,k個子集又可以劃分不同的訓練集合測試集,重複p次。即為p次k折交叉驗證。
常用的有10次10折交叉驗證。
自助法比較適用於資料集較小,難以劃分訓練、測試集時很有用。
即每次從包含m個樣本的資料集d中通過抽樣放回的方式抽取樣本產生資料集c,抽取m次。
最後d中的樣本約有(1-0.368)出現在在集合c中,從而c集合構成訓練集,d-c集合構成測試集。
3、模型度量
(1)錯誤率和精度
精度 = 分類正確樣本數/總樣本數
錯誤率 = 1 - 精度
(2)準確度、召回率和f1值
真實情況
**結果
正例反例
正例tp(真正例)
fn(假反例) 反例
fp(假正例)
tn(真反例)
(3)roc與auc
這篇部落格將的很好: 參考
周志華-《機器學習》
模型評估與模型選擇
模型選擇的目的是使學到的模型對已知資料和未知資料都有較好的 能力,同時又要避免過擬合。所考察的指標主要是模型的訓練誤差及測試誤差,模型的複雜度越高,訓練誤差越小,但測試誤差先減小後增大。訓練誤差和測試誤差隨模型複雜度變化趨勢 過擬合是指模型的複雜度比真模型更高,模型選擇就是選擇測試誤差最小的適當複雜...
模型評估與選擇
錯誤率 分類錯誤的樣本書佔樣本總數的比例 誤差 學習器的實際 輸出與樣本的真實輸出之間的差異 訓練誤差 經驗誤差 學習器在訓練集上的誤差 泛華誤差 在新樣本上的誤差 過擬合 學習器把訓練樣本學的 太好 了,很可能已經把訓練樣本本身的一些特點當作了所有潛在樣本都會具有的一般性質,導致泛華效能下降。欠擬...
模型評估與選擇
1.概念 錯誤率 錯誤分類的樣本數佔樣本總數的比例 精度 1 錯誤率,即正確分類的樣本數佔樣本總數的比例 經驗 訓練 誤差 學習器在訓練集上的誤差 泛化誤差 學習器在新樣本上的誤差 過擬合 學習器在訓練集上效果太好,而在新樣本上的效果較差的現象。模型選擇 不同學習演算法或者相同的學習演算法,當使用不...