**:
版本空間定義:
版本空間(version space)是概念學習中與已知資料集一致的所有假設(hypothesis)的子集集合。
對於二維空間中的「矩形」假設(上圖),綠色加號代表正類樣本,紅色小圈代表負類樣本。 gb 是最大泛化正假設邊界(maximally general positive hypothesis boundary), sb 是最大精確正假設邊界(maximally specific positive hypothesis boundary). gb與sb所圍成的區域中的矩形即為版本空間中的假設,也即gb與sb圍成的區域就是版本空間。
在一些需要對假設的泛化能力排序的情形下,就可以通過gb與sb這兩個上下界來表示版本空間。在學習的過程中,學習演算法就可以只在gb、sb這兩個代表集合上操作。
表1.1的訓練資料集對應的假設空間應該如下:
1 色澤=*,根蒂=*,敲聲=*
2 色澤=青綠,根蒂=*,敲聲=*
3 色澤=烏黑,根蒂=*,敲聲=*
4 色澤=*,根蒂=蜷縮,敲聲=*
5 色澤=*,根蒂=硬挺,敲聲=*
6 色澤=*,根蒂=稍蜷,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
8 色澤=*,根蒂=*,敲聲=清脆
9 色澤=*,根蒂=*,敲聲=沉悶
10 色澤=青綠,根蒂=蜷縮,敲聲=*
11 色澤=青綠,根蒂=硬挺,敲聲=*
12 色澤=青綠,根蒂=稍蜷,敲聲=*
13 色澤=烏黑,根蒂=蜷縮,敲聲=*
14 色澤=烏黑,根蒂=硬挺,敲聲=*
15 色澤=烏黑,根蒂=稍蜷,敲聲=*
16 色澤=青綠,根蒂=*,敲聲=濁響
17 色澤=青綠,根蒂=*,敲聲=清脆
18 色澤=青綠,根蒂=*,敲聲=沉悶
19 色澤=烏黑,根蒂=*,敲聲=濁響
20 色澤=烏黑,根蒂=*,敲聲=清脆
21 色澤=烏黑,根蒂=*,敲聲=沉悶
22 色澤=*,根蒂=蜷縮,敲聲=濁響
23 色澤=*,根蒂=蜷縮,敲聲=清脆
24 色澤=*,根蒂=蜷縮,敲聲=沉悶
25 色澤=*,根蒂=硬挺,敲聲=濁響
26 色澤=*,根蒂=硬挺,敲聲=清脆
27 色澤=*,根蒂=硬挺,敲聲=沉悶
28 色澤=*,根蒂=稍蜷,敲聲=濁響
29 色澤=*,根蒂=稍蜷,敲聲=清脆
30 色澤=*,根蒂=稍蜷,敲聲=沉悶
31 色澤=青綠,根蒂=蜷縮,敲聲=濁響
32 色澤=青綠,根蒂=蜷縮,敲聲=清脆
33 色澤=青綠,根蒂=蜷縮,敲聲=沉悶
34 色澤=青綠,根蒂=硬挺,敲聲=濁響
35 色澤=青綠,根蒂=硬挺,敲聲=清脆
36 色澤=青綠,根蒂=硬挺,敲聲=沉悶
37 色澤=青綠,根蒂=稍蜷,敲聲=濁響
38 色澤=青綠,根蒂=稍蜷,敲聲=清脆
39 色澤=青綠,根蒂=稍蜷,敲聲=沉悶
40 色澤=烏黑,根蒂=蜷縮,敲聲=濁響
41 色澤=烏黑,根蒂=蜷縮,敲聲=清脆
42 色澤=烏黑,根蒂=蜷縮,敲聲=沉悶
43 色澤=烏黑,根蒂=硬挺,敲聲=濁響
44 色澤=烏黑,根蒂=硬挺,敲聲=清脆
45 色澤=烏黑,根蒂=硬挺,敲聲=沉悶
46 色澤=烏黑,根蒂=稍蜷,敲聲=濁響
47 色澤=烏黑,根蒂=稍蜷,敲聲=清脆
48 色澤=烏黑,根蒂=稍蜷,敲聲=沉悶
49 ø
圖1.1下面的那段話描述了學習的過程:
搜尋過程中可以不斷刪除與正例不一致的假設、和(或)與反例一致的假設。最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設,這就是我們學得的結果。按照上述過程進行學習:
(1,(色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除假設空間中的3、5、6、8、9、11-15、17-21、23-30、32-49
(2,(色澤=烏黑、根蒂=蜷縮、敲聲=濁響),好瓜)
可以刪除剩餘假設空間中的2、10、16、31
(3,(色澤=青綠、根蒂=硬挺、敲聲=清脆),壞瓜)
可以刪除剩餘假設空間中的1
(4,(色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)
剩餘假設空間中無可刪除的假設
學習過後剩餘的假設為
4 色澤=*,根蒂=蜷縮,敲聲=*
7 色澤=*,根蒂=*,敲聲=濁響
22 色澤=*,根蒂=蜷縮,敲聲=濁響
這就是最後的「假設集合」,也就是「版本空間」。
機器學習(周志華版)學習筆記(二)假設空間
科學推理的兩大手段 歸納 從特殊到一般的泛化過程。泛化 從樣本中學習訓練出不在樣本中的資料集的共同特徵 使其適用於整個樣本空間。演繹 從一般到特殊的特化過程。特化 與泛化相反 整體樣本的共同特徵推演出具體特徵。例子理解 編號色澤 根蒂敲聲好瓜1 青綠蜷縮濁響是 2烏黑蜷縮濁響是3 青綠硬挺清脆否 4...
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...
周志華 機器學習 筆記
學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...