決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹(decision tree)是乙個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果
具體如下所述:
決策樹演算法是一種逼近離散函式值的方法。它是一種典型的分類方法,首先對資料進行處理,利用歸納演算法生成可讀的規則和決策樹,然後使用決策對新資料進行分析。本質上決策樹是通過一系列規則對資料進行分類的過程。
決策樹方法最早產生於上世紀60年代,到70年代末。由j ross quinlan提出了id3演算法,此演算法的目的在於減少樹的深度。但是忽略了葉子數目的研究。c4.5演算法在id3演算法的基礎上進行了改進,對於**變數的缺值處理、剪枝技術、派生規則等方面作了較大改進,既適合於分類問題,又適合於回歸問題。
決策樹演算法構造決策樹來發現資料中蘊涵的分類規則.如何構造精度高、規模小的決策樹是決策樹演算法的核心內容。決策樹構造可以分兩步進行。第一步,決策樹的生成:由訓練樣本集生成決策樹的過程。一般情況下,訓練樣本資料集是根據實際需要有歷史的、有一定綜合程度的,用於資料分析處理的資料集。第二步,決策樹的剪枝:決策樹的剪枝是對上一階段生成的決策樹進行檢驗、校正和修下的過程,主要是用新的樣本資料集(稱為測試資料集)中的資料校驗決策樹生成過程中產生的初步規則,將那些影響預衡準確性的分枝剪除。
決策樹的典型演算法有id3,c4.5,cart等。
國際權威的學術組織,資料探勘國際會議icdm (the ieee international conference on data mining)在2023年12月評選出了資料探勘領域的十大經典演算法中,c4.5演算法排名第一。c4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是id3演算法。c4.5演算法產生的分類規則易於理解,準確率較高。不過在構造樹的過程中,需要對資料集進行多次的順序掃瞄和排序,在實際應用中因而會導致演算法的低效。
決策樹演算法的優點如下:
(1)分類精度高;
(2)生成的模式簡單;
(3)對雜訊資料有很好的健壯性。
因而是目前應用最為廣泛的歸納推理演算法之一,在資料探勘中受到研究者的廣泛關注。
決策樹id3演算法,該演算法是一資訊為基礎,以資訊熵和資訊增益度為衡量標準,從而實現對資料的歸納分類。
c4.5 演算法一種分類決策樹演算法 , 其核心演算法是 id3 演算法。c4.5 演算法繼承了 id3 演算法的優點,並在以下幾方面對 id3 演算法進行了改進:
資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值- 多的屬性的不足;
在樹構造過程中進行剪枝;
能夠完成對連續屬性的離散化處理;
能夠對不完整資料進行處理。
c4.5演算法有如下優點:產生的分類規則易於理解,準確率較高。其缺點是:在構造樹的過程中,需要對資料集進行多次的順序掃瞄和排序,因而導致演算法的低效
從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇**後資訊增益最大的屬性進行**。下面先定義幾個要用到的概念。
設d為用類別對訓練元組進行的劃分,則d的熵(entropy)表示為:
其中pi表示第i個類別在整個訓練元組中出現的概率,可以用屬於此類別元素的數量除以訓練元組元素總數量作為估計。熵的實際意義表示是d中元組的類標號所需要的平均資訊量。
現在我們假設將訓練元組d按屬性a進行劃分,則a對d劃分的期望資訊為:
而資訊增益即為兩者的差值:
id3演算法就是在每次需要**時,計算每個屬性的增益率,然後選擇增益率最大的屬性進行**。
id3演算法存在乙個問題,就是偏向於多值屬性,例如,如果存在唯一標識屬性id,則id3會選擇它作為**屬性,這樣雖然使得劃分充分純淨,但這種劃分對分類幾乎毫無用處。id3的後繼演算法c4.5使用增益率(gain ratio)的資訊增益擴充,試圖克服這個偏倚。
c4.5演算法首先定義了「**資訊」,其定義可以表示成:
其中各符號意義與id3演算法相同,然後,增益率被定義為:
機器學習演算法 決策樹
決策樹的使用主要是用於分類。年齡收入 信用是否學生 是否買電腦年輕高 高是是中年 低中否否 老年中低否 是對於一些適合分類的資料中,考慮各種因素對結果的影響大小進行決策,一般是先選取區分度較高的因素。比如說,年齡大小這個因素在很大程度上影響我們的結果 是否買電腦。那麼,年齡因素將作為第乙個決策因素出...
機器學習演算法 決策樹
1 決策樹直觀理解 假設,已知10人房產 婚姻 年收入以及能否償還債務的樣本,那麼第11個人來,知其房產 婚姻 以及年收入情況,問他是否能償還債務?2 前置知識 理解決策樹,我們必須知道一下概念 資訊熵 描述系統的不確定度,熵越高,代表系統越混亂,包含的資訊量也就越多,其公式 例 計算前10個樣本能...
機器學習 演算法 決策樹
決策樹是一種機器學習的方法。決策樹的生成演算法有id3,c4.5和cart等。決策樹是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果。決策樹是一種十分常用的分類方法,需要監管學習 有教師的supervised learning 監管...