學習過程是乙個在所有假設組成的空間,即假設空間中進行搜尋的過程。搜尋目標是找到與訓練集「匹配」的假設。
舉個例子:
這裡要學習的目標是「好瓜」。暫且假設「好瓜」可由色澤,根蒂,敲聲這三個因素完全確定。於是,我們學得的將是「好瓜是某種色澤,某種根蒂,某種敲聲的瓜」這樣的概念。圖1.1直觀地顯示出了這個西瓜問題的假設空間。
需要注意的是,現實問題中我們常面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,即存在著乙個與訓練集一致的假設集合,稱之為版本空間。與表1.1訓練集所對應的版本空間如圖1.2所示。
機器學習演算法在學習過程中對某種型別假設的偏好,稱為「歸納偏好」,或簡稱為「偏好」。
歸納偏好可看作學習演算法自身在乙個可能很龐大的假設空間中對假設進行選擇的啟發式或者價值觀。這種價值觀的乙個典型叫做「奧卡姆剃刀」:若有多個假設與觀察一致,則選擇最簡單那個。
事實上,歸納偏好對應了學習演算法本身所做出的關於「什麼樣的模型更好」的假設。在具體的現實問題中,這個假設是否成立,即演算法的歸納偏好是否與問題本身匹配,大多數時候直接決定了演算法能否取得好的效能。
沒有免費的午餐定理(nfl):在所有」問題「出現的機會相同、或者所有問題同等重要的前提下,任何兩個學習演算法的期望效能相同。
nfl定理的意義在於——脫離具體問題,空泛地談論」什麼學習演算法更好「毫無意義,因為若考慮所有潛在問題,則所有的學習演算法都一樣好。
機器學習(歸納偏好)
歸納偏好 inductive bias 機器學習演算法在學習過程中對某種型別假設的偏好。例如 演算法喜歡盡可能特殊的模型,則會選擇 好瓜 色澤 根蒂 蜷縮 敲聲 渾濁 如果演算法盡可能一般的模型,則會選擇 好瓜 色澤 根蒂 蜷縮 敲聲 通俗來講 即在樣本空間中存在多種假設,演算法選擇某種模型假設的偏...
機器學習(假設空間與版本空間)
假設空間 所有屬性的可能取值所組成的集合,比如西瓜 色澤屬性可取 青綠,烏黑,淺白,根蒂屬性可取 蜷縮,稍蜷,硬挺,敲聲屬性可取 濁響,清脆,沉悶,以及好瓜假設不存在。即西瓜問題的假設空間大小為 4 4 4 1 65 版本空間 根據已獲取的資訊 資料集 對假設空間進行剪枝,即找到乙個與資料集匹配的假...
機器學習筆記(二)假設空間
歸納是從特殊到一般的泛化過程,即從事實歸結出一般性規律。演繹是從一般到特殊的特化過程,即基礎原理推演出具體狀況。從樣例中學習是乙個歸納過程,亦稱為歸納學習。歸納學習有廣義與狹義之分,廣義的歸納學習相當於從樣例中學習,狹義的歸納學習要從訓練資料中學得概念,因此稱為概念學習或概念形成。概念學習中最基本的...