如出錯誤人,請大佬斧正!
表1.1中只包含編號為1和4的兩個樣例,即
編號色澤
根蒂敲聲好瓜1
青綠蜷縮濁響是
4烏黑稍蜷沉悶
否那麼,根據書中介紹的方法,在搜尋過程中刪除與正例不一致的假設、和(或)與反例一致的假設,最後得到以下的假設集合:
青綠、蜷縮、濁響
青綠、蜷縮、*
青綠、*、濁響
*、蜷縮、濁響
青綠、*、*
*、蜷縮、*
*、*、濁響
此7個假設(合取式)組成的集合即為所求的版本空間。
當k=1時,使用1個合取式來表達問題的假設空間,此時有7種可能的假設;
當k=2時,使用2個合取式來表達問題的假設空間,考慮(a=a)or(a=*)與(a=*)等價的冗餘情況,此時有9種可能的假設:(習題1.1中的編號)(2,7),(3,6),(4,5),(2,3),(3,4),(2,4),(5,6),(6,7),(5,7),即三種情況:234選一,567選一;234選二;567選二;
當k=3時,只有(2,3,4),(5,6,7)這2種假設不是冗餘情況,其餘的假設都與k=2形成冗餘。
當k>3時,不會再增加非冗餘的假設,所以假設空間總共有7+9+2=18種可能的假設。
最直觀的一種設計是保留與雜訊衝突的假設:即將與極少數樣本衝突而與大多數樣本一致的情況保留再版本空間內。
證明:依然沿用書中前提:假設樣本空間χ
\chi
χ和假設空間h都是離散的。
令p (h
∣x,ξ
a)
p(h|x,\xi_a)
p(h∣x,
ξa)
代表演算法ξ
a\xi_a
ξa基於訓練資料x
xx產生假設h
hh的概率,f
ff代表我們希望學習的真實目標函式。
考慮二分類問題,且真實目標函式可以是任何函式χ
→\chi\rightarrow\
χ→,函式空間為∣χ
∣\^
∣χ∣。對所有可能的f
ff按均勻分布對誤差求和,有:
∑ fe
ote(
ξa∣x
,f)=
∑f∑h
∑x∈(
χ−x)
p(x)
l(h(
x),f
(x))
p(h∣
x,ξa
)\displaystyle \sum_ e_(\xi_a|x,f)=\displaystyle \sum_\displaystyle \sum_\displaystyle \sum_p(x)l(h(x),f(x))p(h|x,\xi_a)
f∑eot
e(ξ
a∣x
,f)=
f∑h
∑x∈
(χ−x
)∑p
(x)l
(h(x
),f(
x))p
(h∣x
,ξa)=∑
x∈(χ
−x)p
(x)∑
fl(h
(x),
f(x)
)∑hp
(h∣x
,ξa)
=\displaystyle \sum_p(x)\displaystyle \sum_l(h(x),f(x))\displaystyle \sum_p(h|x,\xi_a)
=x∈(χ−
x)∑
p(x)
f∑l
(h(x
),f(
x))h
∑p(
h∣x,
ξa)
= ∑x
∈(χ−
x)p(
x)∑f
l(h(
x),f
(x))
i=\displaystyle \sum_p(x)\displaystyle \sum_l(h(x),f(x))\qquad \qquad \qquad \qquad \qquad \qquad i
=x∈(χ−
x)∑
p(x)
f∑l
(h(x
),f(
x))i
因為是二分類問題,對任意效能度量指標 l
ll ,l(h
(x)=
f(x)
)+l(
h(x)
≠f(x
))=a
l(h(x)=f(x))+l(h(x)\neq)=a
l(h(x)
=f(x
))+l
(h(x
)=
f(x)
)=a,a
aa為某一常數,
i =∑
x∈(χ
−x)p
(x)⋅
2∣χ∣
⋅12l
(h(x
)=f(
x)+l
(h(x
)≠f(
x)
)i=\displaystyle \sum_p(x)\cdot2^\cdot\fracl(h(x)=f(x)+l(h(x)\neq)
i=x∈(χ
−x)∑
p(x
)⋅2∣
χ∣⋅2
1l(
h(x)
=f(x
)+l(
h(x)
=f
(x))
= ∑x
∈(χ−
x)p(
x)⋅2
∣χ∣⋅
12⋅a
=\displaystyle \sum_p(x)\cdot2^\cdot\frac\cdot a
=x∈(χ−
x)∑
p(x)
⋅2∣χ
∣⋅21
⋅a與學習方法ξ
a\xi_a
ξa無關。
機器學習能提高網頁搜尋排名的準確性、產品推薦的準確性。
西瓜書第1章習題
1.1 試給出相應的版本空間。首先有乙個 假設空間 現實問題中假設空間一般很大。然後有許多策略是可以對假設空間進行搜尋,搜尋過程中刪除與正例不一致的假設 和反例一致的假設。最後選出來的假設的集合,就叫做 版本空間 1.2 若使用最多包含k個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間,估算...
《機器學習》西瓜書習題 第 4 章
試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...
《機器學習》西瓜書習題 第 3 章
試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...