假設空間:屬性所有可能取值組成的可能的樣本
版本空間:與已知資料集一致的所有假設的子集集合。
在西瓜問題中,如何根據訓練集求所對應的版本空間?
①寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)
②對應著給出的已知資料集,將與正樣本不一致的(要與資料集中所有的正樣本一致,假設有個樣本與資料集中乙個正樣本一致,又與資料集中另乙個正樣本不一致,還是要刪除)、與負樣本一致的假設刪除。
即可得出與訓練集一致的假設集合,也就是版本空間了。
備註:萬用字元*可以代表任意一種可能。其實所求的版本空間能代表所有的正例。接下來引用乙個例子來說明。
舉例:
表1.1的訓練資料集對應的假設空間應該如下:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 ø
根據總結,按照上述過程進行學習:
(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除剩餘假設空間中的2、10、16、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
可以刪除剩餘假設空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩餘假設空間中無可刪除的假設
學習過後剩餘的假設為:
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
這就是最後的「假設集合」,也就是「版本空間」。
假設空間與概念空間(版本空間)
參考部落格 首先說明概念1 版本空間 version space 是概念學習中與已知資料集一致的所有假設 hypothesis 的子集集合。即是版本空間是假設空間中於樣本滿足一致的 假設集合 是基於樣本決定的。gb 是最大泛化正假設邊界 maximally general positive hypo...
周志華西瓜書筆記 1 3 假設空間
歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...
機器學習(假設空間與版本空間)
假設空間 所有屬性的可能取值所組成的集合,比如西瓜 色澤屬性可取 青綠,烏黑,淺白,根蒂屬性可取 蜷縮,稍蜷,硬挺,敲聲屬性可取 濁響,清脆,沉悶,以及好瓜假設不存在。即西瓜問題的假設空間大小為 4 4 4 1 65 版本空間 根據已獲取的資訊 資料集 對假設空間進行剪枝,即找到乙個與資料集匹配的假...