第一章介紹了本書所涉及基本術語和概念。
同時簡要介紹了機器學習的發展史。 習題 1.1若表 1.1 只包含 1 和 4 兩個樣例,試給出相應的樣本空間。已知色澤有兩種取值,根蒂和敲聲分別有三種取值。表 1.1 西瓜資料集
編號色澤
根蒂敲聲好瓜1
青綠蜷縮濁響是
2烏黑蜷縮濁響是3
青綠硬挺清脆否
4烏黑稍蜷沉悶
否首先說明概念1:版本空間(version space)是概念學習中與已知資料集一致的所有假設(hypothesis)的子集集合。即是版本空間是假設空間中於樣本滿足一致的「假設集合」, 是基於樣本決定的。
gb 是最大泛化正假設邊界(maximally general positive hypothesis boundary);
sb 是最大精確正假設邊界(maximally specific positive hypothesis boundary)。
對於二維空間中的「矩形」假設(如圖),綠色代表正例,紅色代表負例。學習過程中,可以
不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,即學得結果。如圖 gb 與 sb 所圍成的區域中的矩形即為版本空間。
解答:由於色澤有兩種取值,根蒂和敲聲分別有三種取值,再各自加上「通配」(即取什麼值都無關緊要)這一項,一共是 (2+
1)×(
3+1)
×(3+
1)=48
種取值,另外還有一種取值是「好瓜這個概念根本不成立」即空集。故
假設空間大小為 48+1=49。現在根據已有樣本 1 和 4,可以排除掉假設空間中所有「色澤
≠青綠」或「根蒂
≠蜷縮」或「聲響
≠濁響」的項,以及由於有樣本 1 即好瓜的存在,排除空集那一項,所以得到的版本空間大小為 8,用合取式表示則是以下 8 種取值: (色
澤=青綠
)∧(根
蒂=∗)
∧(敲聲
=∗)(
色澤=∗
)∧(根
蒂=蜷縮
)∧(敲
聲=∗)
(色澤=
∗)∧(
根蒂=∗
)∧(敲
聲=濁響
)(色澤
=青綠)
∧(根蒂
=蜷縮)
∧(敲聲
=∗)(
色澤=青
綠)∧(
根蒂=∗
)∧(敲
聲=濁響
)(色澤
=∗)∧
(根蒂=
蜷縮)∧
(敲聲=
濁響)(
色澤=青
綠)∧(
根蒂=蜷
縮)∧(
敲聲=濁
響)
習題 1.2 解答:剛已經分析了有 8 種取值,故假設空間中的假設用析取正規化表達形式如下: 好瓜
↔∨∨∨
∨∨∨(
(色澤=
青綠)∧
(根蒂=
∗)∧(
敲聲=∗
))((
色澤=∗
)∧(根
蒂=蜷縮
)∧(敲
聲=∗)
)((色
澤=∗)
∧(根蒂
=∗)∧
(敲聲=
濁響))
((色澤
=青綠)
∧(根蒂
=蜷縮)
∧(敲聲
=∗))
(色澤=
青綠)∧
(根蒂=
∗)∧(
敲聲=濁
響))(
(色澤=
∗)∧(
根蒂=蜷
縮)∧(
敲聲=濁
響))(
(色澤=
青綠)∧
(根蒂=
蜷縮)∧
(敲聲=
濁響))
其中任意乙個取值可以去掉(即去掉取值的約束,從而擴大了結果的空間),比如 好
瓜↔∨(
(色澤=
青綠)∧
(根蒂=
∗)∧(
敲聲=∗
))((
色澤=∗
)∧(根
蒂=蜷縮
)∧(敲
聲=∗)
)也是一種假設。但不可將 8 個都去掉,這樣對「好瓜」就毫無約束了,這樣存在樣本 4 是不符的。故包含以上 8 額合取式中任意非 0 個的析取正規化表示式都是合理的假設,即共有 28−
1=255種假設。
首先給出相關定義,合取正規化:conjunctive normal form - wikipedia,析合正規化:disjunctive normal form - wikipedia。
習題 1.3 解答:由於含有雜訊,故可對樣本空間放寬約束。對於那些只與極少數樣本不一致卻與極大多數樣本一致的假設,仍將其保留在版本空間中。
機器學習(周志華) 第一章總結
的是離散值 好 壞 分類。連續值 0.98 0.90 回歸。通過對訓練集x的學習,形成到集合y的對映 聚類 根據資料的內在聯絡,進行按別分類。訓練資料 有標記的 聚類過的 稱為無監督學習,反之 回歸和分類 為監督學習 歸納學習 廣義的 從樣例種學習 監督與無監督 狹義的 從訓練資料種學習概念 概念學...
西瓜書 周志華 機器學習第一章 緒論
1.什麼是機器學習?人區別於機器,更多是基於經驗累積起來的個體。比如今天我起床看見天空有點兒灰暗,沒有太陽,那我就可以初步預判今天應該是會下雨。走在路上發現,風越吹越大,蜻蜓也在低飛,天越來越黑,這時你知道要下雨了,而且根據以往十幾年來的經驗判斷,這雨還不小,我得趕緊找個地方躲起來。人呢 遇到事多了...
機器學習第一章緒論(周志華西瓜書)
目錄 第一章 緒論 1.1 引言 1.2 基本術語 1.3 假設空間 1.4 歸納偏好 1.5 發展歷程 1.6 應用現狀 1.7閱讀材料 2.課後練習 由 的值是否連續分類 由是否有標記分類 最終可能會有很多與訓練集一致的假設 無法取捨 通過實際偏好來選擇 有沒有一般性原則來引導選擇正確的偏好呢?...