機器學習西瓜書課後習題答案 1 緒論

2022-02-24 03:37:36 字數 2469 閱讀 8546

1.【訊息推送】:比如當我搜尋「機器學習」之後,再開啟某些網頁的時候,會推送有關機器學習培訓的廣告**或參考:

以下是部落格的結果

1.1求版本空間

首先看版本空間的定義,這篇文章寫的很好

概況說來,版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。

現在只有西瓜1和西瓜4兩個樣本:

西瓜1((色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜))為正例,找到假設空間中和它一致的假設:1,2,4,7,10,16,22,31

西瓜4((色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)為反例,找到假設空間中和它一致的假設:1,3,6,9,15,21,30,48

從西瓜1的結果,去除西瓜4的結果,得到版本空間:2,4,7,10,16,22,31

1.2與使用單個合取式來進行假設表示相比,使用「析合正規化」將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合正規化來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

1.3.若資料報含雜訊,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇

通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。

1.4.本章1.4節在論述「沒有免費的午餐」定理時,預設使用了「分類錯誤率」作為效能度量來對分類器進行評估。若換用其他效能度量l,試證明沒有免費的午餐」定理仍成立

還是考慮二分類問題,nfl首先要保證真是目標函式f均勻分布,對於有x個樣本的二分類問題,顯然f共有2x種情況。其中一半是與假設一致的,也就 p(f(x)=h(x))=0.5。

此時, ∑fl(h(x),f(x))=0.5∗2x∗(l(h(x)=f(x))+l(h(x)≠f(x)))

l(h(x)=f(x))+l(h(x)≠f(x))應該是個常數,隱含的條件就該是(乙個比較合理的充分條件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不滿足, nfl 應該就不成立了(或者不那麼容易證明)。

1.5.試述機器學習在網際網路搜尋的哪些環節起什麼作用

1.訊息推送。比如當我搜尋「機器學習」之後,再開啟某些網頁的時候,會推送有關機器學習培訓的廣告

2.**相關度排行,通過點選量,網頁內容進行綜合分析。

3.搜尋,現在大部分還是通過標籤來搜尋,不過基於畫素的搜尋也總會有的吧。

以下是部落格的內容

表1.1 包含4個樣例,3種屬性,假設空間中有3 * 4 * 4 + 1 = 49種假設。在不考慮冗餘的情況下,最多包含k個合取式來表達假設空間,顯然k的最大值是49,每次從中選出k個來組成析合式,共​種可能。但是其中包含了很多沉餘的情況(至少存在乙個合取式被剩餘的析合式完全包含《空集除外》)。

如果考慮沉餘的情況 在這裡忽略空集,乙個原因是並不是太明白空集是否應該加入析合式,另外就算需要加入,求出了前面48種假設的組合,可以很容易求出加入空集後的組合數(每種可能都可以加上空集,再加上1種空集單獨的情況)。 48種假設中: 具體假設:2∗3∗3=18種 乙個屬性泛化假設:2∗3+3∗3+2∗3=21種 兩個屬性泛化假設:2+3+3=8種 三屬性泛化:1種

回答1:

1). 通常認為兩個資料的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個資料的屬性。

2). 也可以考慮同時去掉所有具有相同屬性而不同分類的資料,留下的資料就是沒誤差的資料,但是可能會丟失部分資訊。

回答2:

1). 定義乙個閾值,只要訓練後滿足的樣本數量百分比達到這個閾值即可。

2). 在訓練過程中選擇滿足最多樣本的假設。

nfl首先要保證真目標函式f均勻分布。對於x個訓練資料的二分類問題,顯然f共有種情況,其中一半是與假設一致的,也就是p(f(x) = h(x)) = 0.5.因此,其中應為常數,如果效能度量為錯誤率,二者各為0.5,則該值為1,如果為其他效能度量,根據網友的想法:,應當隱含這樣的充分條件。

《機器學習》西瓜書習題 第 1 章

表 1.1 中若只包含編號為 1 和 4 的兩個樣例,試給出相應的版本空間.這應該不難理解吧,直接上 編號色澤 根蒂敲聲 好瓜 1 青綠蜷縮濁響是 4 烏黑稍蜷沉悶否 與使用單個合取式來進行假設表示相比,使用 析合正規化 將使得假設空間具有更強的表示能力.例如 好瓜 leftrightarrow b...

西瓜書《機器學習》課後答案 chapter11

1.西瓜書 機器學習 課後答案 chapter11 11.1 relief特徵選擇演算法 2.試寫出relief f的演算法描述。解答 輸入 資料集d 過程 計算每個類別的比例 所有特徵對應的統計量 j 0 for i 1 m 得到xi 最近的同類樣本xi nh 以及其餘類別中的每乙個類別的最近樣本...

《機器學習》西瓜書習題 第 4 章

試證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為 0 的決策樹.既然每個標記不同的資料特徵向量都不同,只要樹的每一條 從根解點到乙個葉節點算一條 枝幹代表一種向量,這個決策樹就與訓練集一致.試析使用 最小訓練誤差 作為決策樹劃分選擇準則的缺陷.4.1 ...