1 決策樹定義
決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣,其核心思想就是在乙個資料集上找到乙個最優的特徵,然後從這個特徵的選值中找到乙個最優的候選值,根據這個最優候選值將資料集劃分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。以下主要介紹分類決策樹。
決策樹的生成過程主要包括三步:特徵選擇,決策樹生成以及決策樹剪枝。
2 決策樹的特徵選擇和生成方法
決策樹的特徵選擇方法:資訊增益最大化準則,資訊增益比最大化準則,基尼指數最小化準則。
2.1 資訊增益最大化準則(id3演算法)
2.2 資訊增益比最大化準則(c4.5演算法)
2.3 基尼指數最小化準則(cart演算法)
3 決策樹的剪枝
剪枝的目的是為了降低決策樹的過擬合風險,主要有兩種策略:預剪枝和後剪枝。
3.1 預剪枝
預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能的提公升,則停止劃分並將當前結點標記為葉子結點。
優點:顯著減少了決策樹的訓練時間開銷和測試時間開銷。
缺點:引入了欠擬合的風險。
3.2 後剪枝
後剪枝則是先從訓練及生成一顆完整的決策樹,然後自底向上地對非葉子結點進行考察,若該結點對應的子樹替換為葉子結點能夠帶來決策樹泛華效能的提公升,則該子樹替換為葉子結點。
優點:欠擬合風險很小,泛化效能優於預剪枝決策樹。
缺點:訓練時間開銷比未剪枝和預剪枝決策樹都要大得多。
4 決策樹的特徵處理
4.1 連續值處理
連續屬性的可取值數目不再有限,無法像離散屬性那樣通過列舉離散屬性取值來對結點進行劃分,需要對連續屬性進行離散化操作。c4.5演算法常採用二分法對連續屬性進行處理。
4.2 缺失值處理
現實任務中常會遇到樣本的某些屬性缺失的情況,放棄存在屬性取值缺失的樣本和放棄存在取值缺失的屬性都是對資料資訊的浪費。而如何利用這些屬性缺失的樣本進行訓練需要解決兩個問題:首先,如何在屬性缺失的情況下進行屬性的劃分選擇?其次,在給定劃分屬性的情況下,若樣本在該屬性上的值缺失,如何對樣本進行劃分?
決策樹模型
決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...
決策樹模型
前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...
決策樹模型
決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...