西瓜書第四章學習筆記

2021-09-23 10:19:00 字數 1426 閱讀 6828

習題參考

大部分內容在知識脈絡都體現出來了,尤其是一些公式,這裡僅做一些補充說明。

決策樹(判定樹):這既是一種學習方法,也指學得的樹。

屬性劃分:在劃分過程中,每個判定測試序列(路徑)對於同乙個離散屬性最多劃分一次。

資訊熵:資訊熵越大系統的不確定性就越大,系統的可能性就越多。

pk:在計算資訊熵公式中,對於西瓜資料集,一共只有兩類樣本:『好瓜』和『壞瓜』,|y|=2。

基尼指數:直觀理解,基尼指數越小『純度』越高,資料集中同一類樣本佔比越大。

預剪枝步驟: 首先,依據驗證集計算不劃分時驗證集精度

然後,計算依據訓練集以某個準則進行劃分後的驗證集精度

最後,比較劃分前後的驗證集精度,若劃分前大於劃分後,說明劃分導致樹泛化效能降低,不進行劃分。若劃分後大於劃分前,說明劃分提高了樹的泛化性,進行劃分

後剪枝步驟: 首先,生成完整的樹

其次,自下而上考察,將內部節點替換為葉節點,計算替換前後的驗證集精度

最後,進行比較,若替換前驗證集精度大於劃分後,說明替換導致樹泛化效能降低,不進行替換,保留原來子樹。若替換後驗證集精度大於替換前,說明替換提高了樹的泛化性,進行替換

ta:候選劃分點的集合,每個劃分點都是原相鄰兩特徵取值點的中位數,對ta中每個劃分點都計算以其為分割點二分後資訊增益,取使資訊最大的分割點為作為分支的劃分

解決第乙個問題:樣本有缺失值如何劃分?:依據樣本集中該屬性上無缺資料的加權來計算改屬性的資訊增益,最終確定如何劃分

解決第二個問題:測試樣本在屬性值上有缺失,如何劃分測試樣本?:用無缺樣本的屬性值的分布來估計缺失樣本屬性值的可能分布,對缺失測試樣本進行加權,以不同的概率劃分到不同的子節點中去,所有的概率加和為1

單變數決策樹軸平行原因:因為其內部節點中只依據一種特徵進行劃分

多變數決策樹和單變數決策樹差別:多變數決策樹學習(神金網路)過程中不是為每個非葉節點尋找乙個最優劃分屬性,而是對屬性的線性組合進行測試,建立乙個合適的線性分類器

基於python3.0的決策樹手寫演算法實現和對西瓜書第四章決策樹習題4.3的回答

周志華. (2016). 機器學習. 清華大學出版社, 北京

西瓜書 第四章 決策樹總結

1 什麼是決策樹 2 知道決策樹的學習目的和基本策略 分而治之 3 掌握決策樹演算法,知道有哪三種情況會導致遞迴返回 1 掌握基本概念和計算公式 資訊熵,資訊增益 著名的id3 增益率 c4.5演算法 基尼係數 cart演算法 2 知道該如何去選擇合適的劃分方法 1 為什麼要進行剪紙處理 對付 過擬...

打卡西瓜書2 第四章 決策樹

學習目的 產生一棵泛化能力強決策樹 分而治之 演算法思想 1.生成結點node 2,3,4用來確定結點類別 2.if 樣本集中包含樣本全屬於同一類別,node設為此類別 a,b,c,d,e都是好瓜 定此類別 3.if 當前屬性集為空或者樣本在所有屬性上取值相同 a,b,c,d,e都是根蒂卷 色澤綠 ...

第四章筆記

一.引入樣式 1.行內樣式表 2.內部樣式表 在head標籤裡面,title標籤下面 優點方便在同頁面中修改樣式 缺點不利於在多頁面間共享復用 及維護,對內容與樣式的分離也不夠徹底 3.外部樣式表 嵌入式匯入式 嵌入式和匯入式的區別 1.標籤屬於xhtml,import是屬於css2.1 2.使用鏈...