一些定義:
錯誤率:分類錯誤的樣本數佔樣本總數的比例
精度:精度=1-錯誤率
誤差:學習器實際**輸出與樣本的真實輸出之間的差異
訓練誤差或經驗誤差:學習器在訓練集上的誤差
泛化誤差:學習器在新樣本上的誤差
我們實際希望的是能在新樣本上表現很好的學習器,但是常常會出現在訓練集上表現很好但是在新樣本上表現不好,這種現象叫做過擬合,這時學習器很可能已經把訓練樣本自身的一些特點當作所有潛在樣本都具有的一般性質,因此導致泛化能力下降。
與之對應還有欠擬合,是指訓練集上的表現都不好!
直觀模擬如下圖
現實任務,有多種學習演算法可供選擇,對同乙個學習演算法,使用不同的引數配置也會產生不同的模型,我們選哪種?這就是模型選擇問題。模型選擇肯定是要比較模型的好壞,這就涉及模型的評估。
模型評估應選擇模型的泛化誤差來進行評估。用測試集上的測試誤差來作為泛化誤差的近似。
我們僅有乙個包含m個樣例的資料集d,將它處理產生訓練集s和測試集t,下面介紹常見的做法。
留出法:直接將資料集d劃分為兩個互斥的集合,其中乙個作為s,另乙個作為t
注意:
劃分應盡可能保持資料分布的一致性(不要因為劃分引入偏差),使用分層取樣來保留類別比例,s和t中各個類別的比例是相同的。
單次使用留出法得到的估計結果往往不夠可靠,一般採用若干次隨機劃分、重複進行實驗評估後取平均值作為最後評估結果。
2/3~4/5的樣本用於訓練,剩餘樣本用於測試
交叉驗證法:將資料集d劃分為k個大小相似的互斥子集,每個子集都從d中通過分層取樣得到,每次使用k-1個子集的並集作為訓練集,餘下的那個子集作為測試集,一共進行這樣k次訓練和測試,返回k個測試結果的均值。稱k折交叉驗證。
注意:
k最常用取值是10,還有5,20
將d劃分為k個子集有多種劃分方式,為減少因劃分引入的差別,可以重複p次k折交叉驗證,最後的結果取p次均值。
d中有m個樣本,若k=m,則稱為留一法。留一法評估結果往往被認為比較準確,但是在資料集比較大時,開銷太大。
在留出法和交叉驗證法中,實際模型所用的訓練集比d小(都分出去一部分作為測試集),這會引起偏差!
自助法:以自助取樣法為基礎,給定包含m個樣本的資料集d,每次隨機從d中挑乙個樣本放入d』,這個樣本並不從d中刪除,這個過程重複執行m次,我們得到包含m個樣本的資料集d』作為訓練集,d\d』作為測試集。
注意:
通過自助取樣,d中約有36.8%的樣本未在d』中出現。
自助法對於資料集較小、難以有效劃分訓練集和測試集時有用。
自助法產生的資料集d』改變了初始資料集的分布,會引入偏差!!!
資料量足夠,留出法和交叉驗證法更常用一些。
調參很難啊,折中的話,對每個引數選擇範圍和變化步長,例如[0,0.2]中以0.05為步長,候選引數有5個,就在這5個裡面挑。
我們用測試集上的判別效果來估計模型的泛化能力,而把訓練資料另外分為訓練集和驗證集,基於驗證集上的效能進行模型選擇和調參(學習過程中用的,避免過學習,輔助訓練)。訓練集時模型學習好之後用的。
機器學習 模型評估與選擇
1.擬合 接近目標的遠近程度。過擬合 學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合 學習能力低下導致欠擬合。學習能力低下,擁有長髮的都是女生。2.評估方法 目標 所選模型的泛化誤差最小 一 留出法 step 1 將資料集d 互斥 的分成訓練集s和測試集t,d sut。step ...
機器學習 模型評估與選擇
1 經驗誤差和過擬合 錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差分為訓練誤差 或稱經驗誤差 和泛化誤差 訓練誤差 在訓練集上的誤差 泛化誤差 在新樣本上的誤差 機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當做...
機器學習 模型評估與選擇
第二章 模型評估與選擇 一 概覽 對於同一資料集而言,給定不同的演算法,會提取不同的模型,甚至對於同一演算法給定不同的引數,也會得到不同的模型,選擇最佳的模型的過程稱為模型選擇。模型選擇會遵循一定的標準,首先需要將資料集分成若干部分,一部分用於訓練模型,一部分用於測試模型的泛化能力,對於測試的結果給...