西瓜書 假設空間與版本空間。如何求版本空間

2021-10-09 08:35:13 字數 2267 閱讀 7684

假設空間:屬性所有可能取值組成的可能的樣本

版本空間:與已知資料集一致的所有假設的子集集合。

在西瓜問題中,如何根據訓練集求所對應的版本空間?

①寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)

②對應著給出的已知資料集,將與正樣本不一致的(要與資料集中所有的正樣本一致,假設有個樣本與資料集中乙個正樣本一致,又與資料集中另乙個正樣本不一致,還是要刪除)、與負樣本一致的假設刪除。

即可得出與訓練集一致的假設集合,也就是版本空間了。

備註:萬用字元*可以代表任意一種可能。其實所求的版本空間能代表所有的正例。接下來引用乙個例子來說明。

舉例:

表1.1的訓練資料集對應的假設空間應該如下:

1 色澤=*,根蒂=*,敲聲=*

2 色澤=青綠,根蒂=*,敲聲=*

3 色澤=烏黑,根蒂=*,敲聲=*

4 色澤=*,根蒂=蜷縮,敲聲=*

5 色澤=*,根蒂=硬挺,敲聲=*

6 色澤=*,根蒂=稍蜷,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

8 色澤=*,根蒂=*,敲聲=清脆

9 色澤=*,根蒂=*,敲聲=沉悶

10 色澤=青綠,根蒂=蜷縮,敲聲=*

11 色澤=青綠,根蒂=硬挺,敲聲=*

12 色澤=青綠,根蒂=稍蜷,敲聲=*

13 色澤=烏黑,根蒂=蜷縮,敲聲=*

14 色澤=烏黑,根蒂=硬挺,敲聲=*

15 色澤=烏黑,根蒂=稍蜷,敲聲=*

16 色澤=青綠,根蒂=*,敲聲=濁響

17 色澤=青綠,根蒂=*,敲聲=清脆

18 色澤=青綠,根蒂=*,敲聲=沉悶

19 色澤=烏黑,根蒂=*,敲聲=濁響

20 色澤=烏黑,根蒂=*,敲聲=清脆

21 色澤=烏黑,根蒂=*,敲聲=沉悶

22 色澤=*,根蒂=蜷縮,敲聲=濁響

23 色澤=*,根蒂=蜷縮,敲聲=清脆

24 色澤=*,根蒂=蜷縮,敲聲=沉悶

25 色澤=*,根蒂=硬挺,敲聲=濁響

26 色澤=*,根蒂=硬挺,敲聲=清脆

27 色澤=*,根蒂=硬挺,敲聲=沉悶

28 色澤=*,根蒂=稍蜷,敲聲=濁響

29 色澤=*,根蒂=稍蜷,敲聲=清脆

30 色澤=*,根蒂=稍蜷,敲聲=沉悶

31 色澤=青綠,根蒂=蜷縮,敲聲=濁響

32 色澤=青綠,根蒂=蜷縮,敲聲=清脆

33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶

34 色澤=青綠,根蒂=硬挺,敲聲=濁響

35 色澤=青綠,根蒂=硬挺,敲聲=清脆

36 色澤=青綠,根蒂=硬挺,敲聲=沉悶

37 色澤=青綠,根蒂=稍蜷,敲聲=濁響

38 色澤=青綠,根蒂=稍蜷,敲聲=清脆

39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶

40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響

41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆

42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶

43 色澤=烏黑,根蒂=硬挺,敲聲=濁響

44 色澤=烏黑,根蒂=硬挺,敲聲=清脆

45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶

46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響

47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆

48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶

49 ø

根據總結,按照上述過程進行學習:

(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除剩餘假設空間中的2、10、16、31

(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)

可以刪除剩餘假設空間中的1

(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)

剩餘假設空間中無可刪除的假設

學習過後剩餘的假設為:

4 色澤=*,根蒂=蜷縮,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

22 色澤=*,根蒂=蜷縮,敲聲=濁響

這就是最後的「假設集合」,也就是「版本空間」。

假設空間與概念空間(版本空間)

參考部落格 首先說明概念1 版本空間 version space 是概念學習中與已知資料集一致的所有假設 hypothesis 的子集集合。即是版本空間是假設空間中於樣本滿足一致的 假設集合 是基於樣本決定的。gb 是最大泛化正假設邊界 maximally general positive hypo...

周志華西瓜書筆記 1 3 假設空間

歸納 induction 是從特殊到一般的 泛化 generalization 過程,即從具體的事實歸結出一般性規律 演繹 deduction 是從一般到特殊的 特化 specialization 過程,即從基礎原理推演出具體狀況.e.g.在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理...

機器學習(假設空間與版本空間)

假設空間 所有屬性的可能取值所組成的集合,比如西瓜 色澤屬性可取 青綠,烏黑,淺白,根蒂屬性可取 蜷縮,稍蜷,硬挺,敲聲屬性可取 濁響,清脆,沉悶,以及好瓜假設不存在。即西瓜問題的假設空間大小為 4 4 4 1 65 版本空間 根據已獲取的資訊 資料集 對假設空間進行剪枝,即找到乙個與資料集匹配的假...