二、模型選擇
歸納偏好指機器學習演算法在學習過程中對某種型別假設的偏好。
假 設−
>
盡可能一般& \text\\ 盡可能特殊& \text \end
假設−>{盡
可能一般
盡可能特
殊適用情況盡可能多
適用情況盡可能少
例如:若資料報含雜訊,則假設空間中有可能不存在與所有訓練樣本都一致的假設。在這種情況下,通常認為兩個資料的屬性越相近,則更傾向於將它們劃為同一類。對於出現相同屬性卻不同類的情況,可以認為是它屬於與之最近鄰的資料的屬性類別;或者直接刪除,但會丟失部分資料。這就是一種歸納偏好用於假設選擇的例子。
任何乙個有效的機器學習演算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上」等效「的假設所迷惑,而無法產生確定的學習結果。
例:若認為相似樣本應有相似的輸出,結果可能是平滑的曲線。
沒有免費的午餐定理 (no free lunch theorem , nfl定理):在沒有實際背景下,沒有一種演算法比隨機猜想的演算法效果更好。
nfl定理的重要意義:在脫離實際情況下,空泛地談論哪種演算法好壞是毫無意義的,要談論其優劣必須針對具體的學習問題。
模型選擇的理想方案是:對候選模型的泛化誤差進行評估,然後選擇泛化誤差最小的那個模型。
實際上,我們無法直接獲得泛化誤差,而訓練誤差又由於過擬合現象的存在就不適合作為標準。
解決方案:使用測試誤差近似泛化誤差。(實際運用中,還會考慮時間開銷、儲存開銷、可解釋性等方面的因素)
使用測試誤差近似泛化誤差。 方法
原理注意
優缺點留出法
將資料集劃分為兩個互斥的集合分別作為訓練集和測試集
1、要盡可能保持資料分布一致性,否則會引入偏差;
2、一般採用若干次隨機劃分,重複進行實驗評估取平均作為最終的結果;
3、常用2/3~4/5的樣本作為訓練集,其餘為測試集。
容易引入額外的偏差;
交叉驗證
將集合劃分成k個相似的互斥子集,每次用乙個做為測試集,k-1個作為訓練集,k次後取平均或投票
結果更加精確,但是計算開銷大
自助法有放回的隨機從n個樣本中抽取m次
1、在資料集小,難以存放劃分時很有用;
2、能產生不同的訓練集,對整合方法有很大好處;
3、改變了初始資料集分布,引入估計偏差
效能度量時衡量泛化能力的評價標準,它反映了任務需求,在對比不同模型的能力時,使用不同模型能力時,使用不同的效能度量往往會導致不同的評價結果。
聚類是將樣本劃分為若干互不相交的子集(樣本簇),當然我們希望是簇內相似度高,簇間相似度低。
此時需要效能度量,一般分兩類:
機器學習基礎 模型引數評估與選擇
當看過一些簡單的機器學習演算法或者模型後,對於具體問題該如何評估不同模型對具體問題的效果選擇最優模型呢。假如m個樣本中有a個樣本分類錯誤 錯誤率 e a m 精度 1 e 訓練誤差 又叫經驗誤差,是指演算法 模型在訓練樣本上的誤差 泛化誤差 演算法 模型在新樣本上的誤差 顯然我們希望得到泛化誤差小的...
機器學習 模型評估與選擇
1.擬合 接近目標的遠近程度。過擬合 學習能力過強導致過於擬合。過於學習學到認為女生必須是長頭髮。欠擬合 學習能力低下導致欠擬合。學習能力低下,擁有長髮的都是女生。2.評估方法 目標 所選模型的泛化誤差最小 一 留出法 step 1 將資料集d 互斥 的分成訓練集s和測試集t,d sut。step ...
機器學習 模型評估與選擇
1 經驗誤差和過擬合 錯誤率 分類錯誤的樣本數佔樣本總數的比例 精度 1 錯誤率 誤差分為訓練誤差 或稱經驗誤差 和泛化誤差 訓練誤差 在訓練集上的誤差 泛化誤差 在新樣本上的誤差 機器學習的目標是得到泛化誤差最小的學習器。學習器把訓練樣本學得 太好 了的時候,很可能已經把訓練樣本自身的一些特點當做...