1 演算法流程
一般的,一棵決策樹包含乙個根節點、若干內部節點和若干個葉節點;葉節點對應於決策結果,其他每個結點則對應於乙個屬性測試;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根結點包含樣本全集.從根結點到每個葉結點的路徑對應了乙個判定測試序列.決策樹學習的目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹,其基本流程遵循簡單且直觀的"分而治之" (divide-and-conquer)策略,基本流程如下圖所示。
在決策樹基本演算法中,有三種情形會導致遞迴返回: (1)當前結點包含的樣本全屬於同一類別,無需劃分; (2)當前屬性集為空,或是所有樣本在所有屬性上取值相同,無法劃分;(3)當前結點包含的樣本集合為空,不能劃分。
2 劃分選擇
由演算法流程可看出決策樹學習的關鍵是第8行,即如何選擇最優劃分屬性一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即結點的"純度" (purity)越來越高。
2.1 資訊增益
2.2 增益率
2.3 基尼指數
機器學習之決策樹演算法
決策樹 從根節點開始一步步走到葉子節點 決策 所有的資料最終都會落到葉子節點,既可以做分類也可以做回歸 這裡先講分類樹 假如我們需要對是否玩遊戲進行分類,我們有兩個特徵。如上圖所示。決策樹的訓練與測試 如何切分特徵 選擇節點 衡量標準 熵 資料 14天打球情況 特徵 4種環境變化 目標 構造決策樹 ...
機器學習演算法 決策樹
決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...
機器學習演算法 決策樹
決策樹的使用主要是用於分類。年齡收入 信用是否學生 是否買電腦年輕高 高是是中年 低中否否 老年中低否 是對於一些適合分類的資料中,考慮各種因素對結果的影響大小進行決策,一般是先選取區分度較高的因素。比如說,年齡大小這個因素在很大程度上影響我們的結果 是否買電腦。那麼,年齡因素將作為第乙個決策因素出...