三、對抗過擬合的手段——剪枝處理
四、如何處理連續值、缺失值
如何選擇最優劃分屬性?我們希望決策樹分支節點所包含的樣本盡可能屬於同一類別,即結點的「純度」越來越高。
資訊增益:結點劃分前後資訊熵的差值。
資訊增益準則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,因此採用增益率來選擇最優劃分屬性。
增益率準則對可取數目較少的屬性有所偏好,因此c4.5演算法不是直接選擇增益率最大的候選劃分屬性,而是先從候選劃分屬性中找出資訊增益率最大的候選劃分屬性,再從中選擇增益率最高的。
cart決策樹使用「基尼指數」來選擇劃分屬性。
決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。預剪枝是在決策樹生成過程中,對每個結點在劃分前先進行評估;後剪枝是先從訓練集生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察。
後剪枝決策樹通常比預剪枝決策樹保留更多的分支,一般情況下,後剪枝欠擬合的風險很小,泛化能力往往優於預剪枝決策樹。但後剪枝是先生成樹再自底向上的對所有非葉結點進行逐一考察,其訓練時間開銷比未剪枝和預剪枝決策樹都要大得多。
連續值的處理:二分法。找區間的中位點作為候選劃分點。
缺失值的處理:
對於問題1,我們可以僅根據沒有缺失的樣本來判斷屬性優劣
學習資料:機器學習——周志華
西瓜書 決策樹
偽 決策樹生成過程就是生成一顆最優的決策樹,一般從根節點開始生成,一步一步往下蔓延 遞迴的過程 那麼選擇哪個屬性作為根節點呢?這就需要乙個判定標準了,說白了就是窮舉 無非就是那麼幾個屬性 既然是決策點 一般稱分支結點 隨著劃分的不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即純度...
決策樹筆記(西瓜書)
一棵決策樹包含乙個根節點,若干個葉節點,若干個內部節點。每個葉節點表示相對應的決策結果。決策樹的生成是乙個遞迴過程,每個節點會遇到三種情況 當前節點對應的資料集中只有一種類別資料,則無需再劃分 當前節點屬性集為空,或者資料的取值全部相同,則將當前節點設為葉節點,對應的類別為,資料中包含樣本量最多的類...
西瓜書讀書筆記(四) 決策樹
全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 可以先看看這個 統計學習方法讀書筆記 五 決策樹 決策樹 decision tree 是一類常見的機器學習方法。連續值 採用二分法對連續的屬性進行處理,這也是c4.5決策樹演算法採用的機制。缺失值 通過計算資訊增益,讓同一樣本以不同的概率劃入到不同...