1. 概念
決策樹是通過一系列規則對資料進行分類的過程,它提供一種在什麼條件下會得到什麼值的類似規則的方法。決策樹分為分類樹和回歸樹兩種,分類樹對離散變數做決策樹,回歸樹對連續變數做決策樹。
分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別:內部節點和葉節點,內部節點表示乙個特徵或屬性,葉節點表示乙個類。
直**上去,決策樹分類器就像判斷模組和終止塊組成的流程圖,終止塊表示分類結果(也就是樹的葉子)。判斷模組表示對乙個特徵取值的判斷(該特徵有幾個值,判斷模組就有幾個分支)。
引用網上的乙個栗子:
母親:給你介紹個物件。
女兒:年紀多大了?
母親:26
。女兒:長的帥不帥?
母親:挺帥的。
女兒:收入高不?
母親:不算很高,中等情況。
女兒:是公務員不?
母親:是,在稅務局上班呢。
女兒:那好,我去見見。
用決策樹來表示:
作為乙個碼農經常會不停的敲if, else if, else,其實就已經在用到決策樹的思想了。只是你有沒有想過,有這麼多條件,用哪個條件特徵先做if,哪個條件特徵後做if比較優呢?怎麼準確的定量選擇這個標準就是決策樹機器學習演算法的關鍵了。
2. 決策樹的學習過程
一棵決策樹的生成過程主要分為以下3個部分:
特徵選擇:
特徵選擇是指從訓練資料中眾多的特徵中選擇乙個特徵作為當前節點的**標準,如何選擇特徵有著很多不同量化評估標準標準,從而衍生出不同的決策樹演算法。
1、 為什麼要做特徵選擇
在有限的樣本數目下,用大量的特徵來設計分類器計算開銷太大而且分類效能差。
2、 特徵選擇的確切含義
將高維空間的樣本通過對映或者是變換的方式轉換到低維空間,達到降維的目的,然後通過特徵選取刪選掉冗餘和不相關的特徵來進一步降維。
3、 特徵選取的原則
獲取盡可能小的特徵子集,不顯著降低分類精度、不影響類分布以及特徵子集應具有穩定適應性強等特點
決策樹生成:
根據選擇的特徵評估標準,從上至下遞迴地生成子節點,直到資料集不可分則停止決策樹停止生長。 樹結構來說,遞迴結構是最容易理解的方式。
剪枝:
由於決策樹演算法的特性,容易使得對特徵的學習過度細分,從而出現分類不准的情況,比如,把某乙個特殊特特徵當做類別的判斷標準,從而把不具有某特殊屬性的資料劃分到此類別之外。這種情況叫過擬合,英文叫overfitting直譯就是過度匹配,也就是匹配太細化,有點過了。要解決這個問題,就要把決策樹進行簡化,把一些太細化的特性去掉,反應在樹形結構上就是去掉一些分支,術語叫剪枝。剪枝技術有預剪枝和後剪枝兩種。
機器學習演算法之決策樹
1 演算法流程 一般的,一棵決策樹包含乙個根節點 若干內部節點和若干個葉節點 葉節點對應於決策結果,其他每個結點則對應於乙個屬性測試 每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中 根結點包含樣本全集.從根結點到每個葉結點的路徑對應了乙個判定測試序列.決策樹學習的目的是為了產生一棵泛化能力...
機器學習之決策樹演算法
決策樹 從根節點開始一步步走到葉子節點 決策 所有的資料最終都會落到葉子節點,既可以做分類也可以做回歸 這裡先講分類樹 假如我們需要對是否玩遊戲進行分類,我們有兩個特徵。如上圖所示。決策樹的訓練與測試 如何切分特徵 選擇節點 衡量標準 熵 資料 14天打球情況 特徵 4種環境變化 目標 構造決策樹 ...
機器學習演算法 決策樹
決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...