版本空間:存在著乙個與訓練集一致的「假設集合」。
此時,只有1, 4兩個樣例。
求版本空間的步驟:
①寫出假設空間:先列出所有可能的樣本點(即特徵向量)(即每個屬性都取到所有的屬性值)
②對應著給出的已知資料集,將與正樣本不一致的、與負樣本一致的假設刪除。
③得出與訓練集一致的假設集合,即版本空間。
首先,訓練資料集對應的假設空間如下:
1 色澤 = *, 根蒂 = *,敲聲 = *
2 色澤 = 青綠, 根蒂 = *,敲聲 = *
3 色澤 = 烏黑, 根蒂 = *,敲聲 = *
4 色澤 = *, 根蒂 = 蜷縮,敲聲 = *
5 色澤 = *, 根蒂 = 稍蜷,敲聲 = *
6 色澤 = *, 根蒂 = *,敲聲 = 濁響
7 色澤 = *, 根蒂 = *,敲聲 = 沉悶
8 色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = *
9 色澤 = 青綠, 根蒂 = 稍蜷,敲聲 = *
10 色澤 = 烏黑, 根蒂 = 蜷縮,敲聲 = *
11 色澤 = 烏黑, 根蒂 = 稍蜷,敲聲 = *
12 色澤 = 青綠, 根蒂 = *,敲聲 = 濁響
13 色澤 = 青綠, 根蒂 = *,敲聲 = 沉悶
14 色澤 = 烏黑, 根蒂 = *,敲聲 = 濁響
15 色澤 = 烏黑, 根蒂 = *,敲聲 = 沉悶
16 色澤 = *, 根蒂 = 蜷縮,敲聲 = 濁響
17 色澤 = *, 根蒂 = 蜷縮,敲聲 = 沉悶
18 色澤 = *, 根蒂 = 稍蜷,敲聲 = 濁響
19 色澤 = *, 根蒂 = 稍蜷,敲聲 = 沉悶
20 色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = 濁響
21 色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = 沉悶
22 色澤 = 青綠, 根蒂 = 稍蜷,敲聲 = 濁響
23 色澤 = 青綠, 根蒂 = 稍蜷,敲聲 = 沉悶
24 色澤 = 烏黑, 根蒂 = 蜷縮,敲聲 = 濁響
25 色澤 = 烏黑, 根蒂 = 蜷縮,敲聲 = 沉悶
26 色澤 = 烏黑, 根蒂 = 稍蜷,敲聲 = 濁響
27 色澤 = 烏黑, 根蒂 = 稍蜷,敲聲 = 沉悶
28 ø
根據樣例進行學習:
色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = 濁響 -> 好瓜
刪除不一致的假設:3 5 7 9-11 13-15 17-19 21-28
色澤 = 烏黑, 根蒂 = 稍蜷,敲聲 = 沉悶 -> 壞瓜
刪除一致的假設:1
學習後的剩餘假設為2 4 6 8 12 16 20
2 色澤 = 青綠, 根蒂 = *,敲聲 = *
4 色澤 = *, 根蒂 = 蜷縮,敲聲 = *
6 色澤 = *, 根蒂 = *,敲聲 = 濁響
8 色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = *
12 色澤 = 青綠, 根蒂 = *,敲聲 = 濁響
16 色澤 = *, 根蒂 = 蜷縮,敲聲 = 濁響
20 色澤 = 青綠, 根蒂 = 蜷縮,敲聲 = 濁響
所以版本空間為
機器學習周志華筆記
1,監督學習 分類 回歸 無監督學習 聚類 2,決策樹 根據資訊增益的大小來確定節點 資訊熵 描述事務確定性程度的值 需要多少個bit來描述資訊 ent d pklog2pk 資訊增益 資訊熵 某個屬性劃分的平均資訊熵 該屬性劃分純度 3,支援向量機中對超平面的理解 劃分超平面用以下線性方程表示 w...
周志華 機器學習 筆記
學習演算法自身的歸納偏好與問題是否相配,往往會起到決定作用。對於上面這句話 你的輸入資料被怎麼處理,最終得到什麼結果,我認為偏好指的就是這個處理的過程。線性非線性?那些feature忽略掉?怎麼利用這些資料?更具體一些,你用網路處理,還是傳統方法,資料的分布和你的處理方法相符嗎?沒有免費的午餐定理 ...
《機器學習》(周志華)學習筆記(一)
一 假設空間 科學推理的兩大手段 歸納 induction 和演繹 deduction 歸納 泛化過程,從具體的事實歸結出一般性規律 演繹 特化過程,從基礎原理推演出具體狀況 學習過程可以看作乙個在所在假設組成的空間中進行搜尋的過程,搜尋目標是找到與訓練集 匹配 fit 的假設,即可以將訓練集中的樣...