周志華《機器學習》版本空間

2021-07-27 04:17:44 字數 2538 閱讀 6772

**:

版本空間定義

版本空間(version space)是概念學習中與已知資料集一致的所有假設(hypothesis)的子集集合。

對於二維空間中的「矩形」假設(上圖),綠色加號代表正類樣本,紅色小圈代表負類樣本。 gb 是最大泛化正假設邊界(maximally general positive hypothesis boundary), sb 是最大精確正假設邊界(maximally specific positive hypothesis boundary). gb與sb所圍成的區域中的矩形即為版本空間中的假設,也即gb與sb圍成的區域就是版本空間。

在一些需要對假設的泛化能力排序的情形下,就可以通過gb與sb這兩個上下界來表示版本空間。在學習的過程中,學習演算法就可以只在gb、sb這兩個代表集合上操作。

表1.1的訓練資料集對應的假設空間應該如下:

1 色澤=*,根蒂=*,敲聲=*

2 色澤=青綠,根蒂=*,敲聲=*

3 色澤=烏黑,根蒂=*,敲聲=*

4 色澤=*,根蒂=蜷縮,敲聲=*

5 色澤=*,根蒂=硬挺,敲聲=*

6 色澤=*,根蒂=稍蜷,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

8 色澤=*,根蒂=*,敲聲=清脆

9 色澤=*,根蒂=*,敲聲=沉悶

10 色澤=青綠,根蒂=蜷縮,敲聲=*

11 色澤=青綠,根蒂=硬挺,敲聲=*

12 色澤=青綠,根蒂=稍蜷,敲聲=*

13 色澤=烏黑,根蒂=蜷縮,敲聲=*

14 色澤=烏黑,根蒂=硬挺,敲聲=*

15 色澤=烏黑,根蒂=稍蜷,敲聲=*

16 色澤=青綠,根蒂=*,敲聲=濁響

17 色澤=青綠,根蒂=*,敲聲=清脆

18 色澤=青綠,根蒂=*,敲聲=沉悶

19 色澤=烏黑,根蒂=*,敲聲=濁響

20 色澤=烏黑,根蒂=*,敲聲=清脆

21 色澤=烏黑,根蒂=*,敲聲=沉悶

22 色澤=*,根蒂=蜷縮,敲聲=濁響

23 色澤=*,根蒂=蜷縮,敲聲=清脆

24 色澤=*,根蒂=蜷縮,敲聲=沉悶

25 色澤=*,根蒂=硬挺,敲聲=濁響

26 色澤=*,根蒂=硬挺,敲聲=清脆

27 色澤=*,根蒂=硬挺,敲聲=沉悶

28 色澤=*,根蒂=稍蜷,敲聲=濁響

29 色澤=*,根蒂=稍蜷,敲聲=清脆

30 色澤=*,根蒂=稍蜷,敲聲=沉悶

31 色澤=青綠,根蒂=蜷縮,敲聲=濁響

32 色澤=青綠,根蒂=蜷縮,敲聲=清脆

33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶

34 色澤=青綠,根蒂=硬挺,敲聲=濁響

35 色澤=青綠,根蒂=硬挺,敲聲=清脆

36 色澤=青綠,根蒂=硬挺,敲聲=沉悶

37 色澤=青綠,根蒂=稍蜷,敲聲=濁響

38 色澤=青綠,根蒂=稍蜷,敲聲=清脆

39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶

40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響

41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆

42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶

43 色澤=烏黑,根蒂=硬挺,敲聲=濁響

44 色澤=烏黑,根蒂=硬挺,敲聲=清脆

45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶

46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響

47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆

48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶

49 ø

圖1.1下面的那段話描述了學習的過程:

搜尋過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,這就是我們學得的結果。
按照上述過程進行學習:

(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)

可以刪除剩餘假設空間中的2、10、16、31

(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)

可以刪除剩餘假設空間中的1

(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)

剩餘假設空間中無可刪除的假設

學習過後剩餘的假設為

4 色澤=*,根蒂=蜷縮,敲聲=*

7 色澤=*,根蒂=*,敲聲=濁響

22 色澤=*,根蒂=蜷縮,敲聲=濁響

這就是最後的「假設集合」,也就是「版本空間」

機器學習(周志華版)學習筆記(二)假設空間

科學推理的兩大手段 歸納 從特殊到一般的泛化過程。泛化 從樣本中學習訓練出不在樣本中的資料集的共同特徵 使其適用於整個樣本空間。演繹 從一般到特殊的特化過程。特化 與泛化相反 整體樣本的共同特徵推演出具體特徵。例子理解 編號色澤 根蒂敲聲好瓜1 青綠蜷縮濁響是 2烏黑蜷縮濁響是3 青綠硬挺清脆否 4...

機器學習周志華筆記

1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...

周志華 機器學習 筆記

學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...