1.1 表1.1中若只包含編號為1和4的兩個樣例,試給出相應的版本空間。當樣例僅剩1、4時即
西瓜資料集 編號
色澤根蒂
敲聲好瓜1青綠
蜷縮濁響是2
烏黑稍蜷沉悶否
採用另一種獲得方法進行分析:
首先對編號1的資料進行泛化,可以得到以下內容(共
對資料集中編號為1的資料泛化結果 編號
色澤根蒂敲聲a
青綠蜷縮濁響b
*蜷縮濁響c
青綠*濁響d
青綠蜷縮*e
青綠**f
*蜷縮*g
**濁響h
***再根據反例剔除泛化後不成立的結果。顯而易見的是h包含了2的情況,因此h被剔除。而剩下的a~g即為所求的版本空間。
1.2 與使用單個合取式來進行假設表示相比,使用「析合正規化」將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。假設空間加空集的情況下大小為3×4×4+1=49
考慮冗餘的情況下:
具體的(不含萬用字元的)假設:2×3×3=18
含1個萬用字元的假設:3×3+2×3+2×3=21(種)
含2個萬用字元的假設:2+3+3=8(種)
含3個萬用字元的假設:1(種)
此時k的最大值為18,假設的個數為1
k的最小值為1,假設的個數為48(即除去空集的所有情況)
1.3 若資料報含雜訊,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇。由於沒有完全一致的,因此可以考慮找出和訓練樣本相似度最高的假設,即找出屬性匹配得最多的那些假設。
1.5 試述機器學習能在網際網路搜尋的哪些環節起什麼作用。通過機器學習學習影象內容對未來影象檢索能起到幫助
通過學習人們使用搜尋引擎搜尋的內容提供更為精準的搜尋服務
學習使用者商品的瀏覽和購買記錄提供個性化的廣告推薦
《機器學習》西瓜書習題 第 4 章
試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...
《機器學習》西瓜書習題 第 3 章
試析在什麼情況下式 3.2 中不必考慮偏置項 b 書中有提到,可以把 x 和 b 吸收入向量形式 hat w b 此時就不用單獨考慮 b 了.其實還有很多情況不用,比如說使用了 mathrm 編碼,就可以不用考慮偏置項.更廣泛的情況是,如果偏置項 b 可以被 包含 在另外的一些離散特徵裡,那麼就不用...
《機器學習》 西瓜書習題 第 2 章
資料集包含 1000 個樣本,其中 500 個正例 500 個反例,將其劃分為包含 70 樣本的訓練集和 30 樣本的測試集用於留出法評估,試估算共有多少種劃分方式.如果劃分要保證正例和反例一樣多的話,那麼劃分方式數量 n 有 begin n c times c c end 如果不考慮的話則有 n ...