表 \(1.1\) 中若只包含編號為 \(1\) 和 \(4\) 的兩個樣例, 試給出相應的版本空間.
這應該不難理解吧,直接上**.
編號色澤
根蒂敲聲
好瓜\(1\)
青綠蜷縮濁響是
\(4\)
烏黑稍蜷沉悶否
**與使用單個合取式來進行假設表示相比, 使用 "析合正規化" 將使得假設空間具有更強的表示能力. 例如
\[好瓜 \leftrightarrow \big((色澤=*)\wedge(根蒂=蜷縮)\wedge(敲聲=*)\big)\vee\big((色澤=烏黑)\wedge(根蒂=*)\wedge(敲聲=沉悶)\big)
\]會把 "\((色澤=*)\wedge(根蒂=蜷縮)\wedge(敲聲=*)\)" 以及 "\((色澤=烏黑)\wedge(根蒂=*)\wedge(敲聲=沉悶)\)" 都分類為 "好瓜" . 若使用最多包含 \(k\) 個合取式的析合正規化來表達 \(1.1\) 西瓜分類問題的假設空間, 試估算共有多少種可能的假設.**
一共有 \(3\) 個特徵, 第乙個特徵有 \(3\) 種取值(算上 \(*\) ), 第二, 三個都是 \(4\) 種取值.
每個合取式我們分為三項:色澤, 根蒂, 敲聲.這裡要注意某個項其實是可以同時選擇兩種取值的, 比如色澤這一項可以是 \(\big((色澤=青綠)\wedge(色澤=烏黑)\big)\) 而不是只能有乙個取值.
那麼第一項只可能選擇乙個或兩個取值, 取值是乙個時有 \(3\) 種可能, 取值為兩種時只有 \(1\) 種可能(即除了 \(*\) 外的另兩種一起取到), 其他項以此類推, 那麼就有 \(4\times7\times7=196\) 種合取式, 因此 \(k_}=196\).
所以可能的假設總數為 \(\sum^}}_c_}}^i\) , 即任意取 \(1\sim k_}\)個合取式然後組合成的析合正規化的數量.
當然我們這裡不考慮冗餘 (因為我懶) .
若資料報含雜訊, 則假設空間中有可能不存在與所有訓練樣本都一致的假設. 在此情形下, 試設計一種歸納偏好用於假設選擇.
當然是奧卡姆剃刀啦, "如無必要, 勿增實體", 大概體現了一種哲學思想吧.
**本章 \(1.4\) 節在論述 "沒有免費的午餐" 定理時, 預設使用了 "分類錯誤率" 作為效能度量來對分類器進行評估. 若換用其他效能度量 \(\ell\) ,則將式\((1.1)\)改為
\[e_(\mathfrak_a\mid x,f)=\sum_h\sum_}\in \mathcal-x}p(\boldsymbol})\ell(h(\boldsymbol}),f(\boldsymbol}))p(h\mid x,\mathfrak_a)
\]試證明 "沒有免費的午餐定理" 仍成立.**
其實和原來的推導差不多. 對所有可能的 \(f\) 按均勻發布對誤差求和, 有
\[\begin
\sum_fe_(\mathfrak_a\mid x,f)&=\sum_f\sum_h\sum_\in \mathcal-x}p(\boldsymbol)\ell(h(\boldsymbol),f(\boldsymbol))p(h\mid x,\mathfrak_a)\\
&=\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)\sum_f\ell(h(\boldsymbol),f(\boldsymbol))\\
&=\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)e(\ell)\\
&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)\sum_hp(h\mid x,\mathfrak)\\
&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)\cdot1\\
&=e(\ell)\sum_\in\mathcal-x}p(\boldsymbol)
\end\]
\(e(\ell)\) 為 \(\ell\) 的數學期望(就是 \(\ell\) 這個函式所有可能輸出的均值去乘 \(2^|}\), 因為 \(f\) 是任意的. 反正是個常數.).
最終表示式與學習演算法 \(\mathfrak\) 無關, 於是$$\sum_fe_(\mathfrak\mid x,f)=\sum_fe_(\mathfrak\mid x,f)$$
所以 "沒有免費的午餐定理" 仍成立.
試述機器學習能在網際網路搜尋的哪些環節起什麼作用.
西瓜書第1章習題
1.1 試給出相應的版本空間。首先有乙個 假設空間 現實問題中假設空間一般很大。然後有許多策略是可以對假設空間進行搜尋,搜尋過程中刪除與正例不一致的假設 和反例一致的假設。最後選出來的假設的集合,就叫做 版本空間 1.2 若使用最多包含k個合取式的析合正規化來表達表1.1西瓜分類問題的假設空間,估算...
《機器學習》西瓜書習題 第 4 章
試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...
《機器學習》西瓜書習題 第 3 章
試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...