學習目的:產生一棵泛化能力強決策樹——「分而治之」
演算法思想:1. 生成結點node
##2,3,4用來確定結點類別
2.if 樣本集中包含樣本全屬於同一類別,node設為此類別(a,b,c,d,e都是好瓜)--->定此類別
3.if 當前屬性集為空或者樣本在所有屬性上取值相同(a,b,c,d,e都是根蒂卷、色澤綠)--->定最多類別
4.if 當前結點樣本為空--->定父節點類別
5.重新選擇最優屬性,迭代回去
那麼,如何選擇最優屬性?
資訊熵 ent(d)越小,d的純度越高--->資訊增益 (id3以此作為準則選擇屬性)
如何預防過擬合?--->剪枝處理
基本思路就是決策樹不生成的那麼深,到葉結點的父結點或者更靠近根結點的結點就停下,其依據是結構風險最小化原則。
預剪枝和後剪枝
連續屬性怎麼辦?--->二分法
缺失資料怎麼辦?--->推廣資訊增益
推廣--->多變數決策樹
西瓜書 第四章 決策樹總結
1 什麼是決策樹 2 知道決策樹的學習目的和基本策略 分而治之 3 掌握決策樹演算法,知道有哪三種情況會導致遞迴返回 1 掌握基本概念和計算公式 資訊熵,資訊增益 著名的id3 增益率 c4.5演算法 基尼係數 cart演算法 2 知道該如何去選擇合適的劃分方法 1 為什麼要進行剪紙處理 對付 過擬...
第四章 決策樹
一般的,一棵決策樹包含乙個根節點,若干個內部節點和若干個葉節點。決策學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習的關鍵是如何選擇劃分屬性。隨著劃分過程的不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點的 純度 越來越高。1 資訊增益 資訊熵是度...
機器學習 第四章 決策樹
決策樹原理介紹 決策樹 decision tree 是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。劃分選擇 決策樹學習的關鍵在於,在每個 節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點...