決策樹模型的用途

2021-09-12 21:32:02 字數 905 閱讀 2320

定義在特徵空間與類空間上的條件概率分布,即給定特徵條件下類的條件概率分布;也可以認為是if-then規則的集合

模型具有可讀性,分類速度快。

首先,介紹一下決策樹模型:

結點有向邊組成,結點又可分為內部結點葉結點內部結點表示乙個特徵或屬性葉結點表示乙個類。

決策樹所表示的條件概率分布由各個單元給定條件下的類的條件概率分布組成。若x表示特徵的隨機變數,取值於給定劃分下單元的集合,y表示類的隨機變數,取值於類的集合,則該條件概率分布可以表示為p(y|x)。

各葉結點(單元)上的條件概率往往偏向於某一類,即屬於某一類的概率較大。

從訓練資料集中歸納出一組分類規則。

決策樹的學習常包含三個步驟:

特徵選擇

決策樹的生成

決策樹的剪枝

是決定用哪個特徵來劃分特徵空間。三種方法:

資訊增益

資訊增益比

基尼指數

基本方法,從根結點出發,對結點計算所有可能的特徵的資訊增益(或資訊增益比或基尼指數),選擇資訊增益值(或資訊增益比或基尼指數)較大的特徵作為結點的特徵。

幾種選擇標準的不同(id3, c4.5, cart)可參考:決策樹

通過極小化決策樹整體的損失函式或代價函式來實現。

兩者的不同:

決策樹的生成只考慮了通過提高資訊增益或資訊增益比對資料進行更好的擬合,而剪枝通過優化損失函式還減小了模型的複雜度。

決策樹生成學習區域性的模型,而決策樹剪枝學習整體的模型。

決策樹模型

決策樹採用樹結構來進行決策的,可以認為是if then規則集合,也可以認為是對特徵空間劃分,每個子空間對應乙個輸出。其優點簡單,快速,可解釋性強。決策樹通常包含三部分 特徵選擇,決策樹生成,決策樹剪枝。資訊增益,資訊增益比,基尼指數是常用的特徵選擇準則 資訊熵 表示變數的不確定程度,資訊熵越大不確定...

決策樹模型

前言 決策樹生成模型三要素 一般而言,一顆 完全生長 的決策樹包含 特徵選擇 決策樹構建 剪枝三個過程。決策樹是一種啟發式貪心演算法,每次選取的分割資料的特徵是當前的最佳選擇,並不關心是否達到最優。一 特徵選擇 1.1 熵 樣本集合 純度 不確定性 穩定性的指標 熵越大,樣本的不確定性就越大 在決策...

決策樹模型

決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類,也可以理解為簡單的if then的規則集合 樹嘛 那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢,因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了 說白了,你選的樹分叉的地方越有區分度 分類越多越好你乙個特徵...