決策樹學習的三個步驟:特徵選擇、決策樹的生成、決策樹的修剪
決策樹的結點:內部結點表示乙個特徵或屬性,葉節點表示乙個分類
決策樹的路徑或其對應的if then
規則集合滿足性質:互斥且完備
決策樹學習本質上是從訓練資料集中歸納出一組分類規則
與訓練集不相矛盾的決策樹可能有很多,我們需要的是乙個與訓練資料矛盾較小且分化能力較強的決策樹
關於剪枝:我們需要對已生成的樹自下而上進行剪枝,將樹變得簡單,從而使其具有更好地泛化能力
決策樹的生成只考慮區域性最優,而決策樹的剪枝則考慮全域性最優
特徵選擇的準則:資訊增益或資訊增益比
資訊增益表示得知特徵x的資訊而使得類y的資訊不確定性減少的程度
g(d,a) = h(d) - h(d|a) 【特徵a對訓練集d的資訊增益】
資訊增益比
決策樹的剪枝
若剪枝後的子樹的損失函式更小,則進行剪枝
剪枝可以由一種動態規劃的演算法實現
決策樹的生成演算法:id3 c4.5 cart
c4.5
cart classification and regression tree
決策樹剪枝:用驗證集數對已生成的樹進行剪枝並且選擇最優子樹
reference
統計學習方法 決策樹
決策樹是一種基本的分類與回歸方法。一 決策樹模型 決策樹可以轉換成乙個if then規則的集合,也可以看作是定義在特徵空間劃分的類的條件概率分布 特徵為變數,類為概率 cart與id3 id4.5的區別 cart假設決策樹是二叉樹,特徵取值為 是 或 否 二,決策樹的生成演算法 2.1 id3 id...
統計學習方法 5 決策樹
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別 內部結點和葉結點。內部結點表示乙個特徵或屬性,葉結點表示乙個類。決策樹的路徑或其對應的if then規則集合具有乙個重要的性質 互斥並且完備。這就是說,每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑...
《統計學習方法》之決策樹
決策數是一種基本的分類和回歸方法。主要優點是模型具有可讀性,分類快。學習時,利用訓練資料,根據損失函式最小化的原則建立決策樹模型。決策樹學習通常包括3個步驟 特徵選擇 決策樹的生成 決策樹的修剪 決策樹中每乙個例項都被一條路徑或一條規則所覆蓋,而且只被一條路徑或一條規則所覆蓋。決策樹學習是由訓練資料...