決策樹模型ID3 C4 5演算法比較

2021-09-13 23:08:12 字數 977 閱讀 1107

兩者都是決策樹學習的經典演算法

一.id3演算法

id3由ross quinlan在2023年提出。id3決策樹可以有多個分支,但是不能處理特徵值為連續的情況。決策樹是一種貪心演算法,每次選取的分割資料的特徵都是當前的最佳選擇,並不關心是否達到最優。在id3中,每次根據「最大資訊熵增益」選取當前最佳的特徵來分割資料,並按照該特徵的所有取值來切分,也就是說如果乙個特徵有4種取值,資料將被切分4份,一旦按某特徵切分後,該特徵在之後的演算法執行中,將不再起作用,所以有觀點認為這種切分方式過於迅速。id3演算法十分簡單,核心是根據「最大資訊熵增益」原則選擇劃分當前資料集的最好特徵,資訊熵是資訊理論裡面的概念,是資訊的度量方式,不確定度越大或者說越混亂,熵就越大。在建立決策樹的過程中,根據特徵屬性劃分資料,使得原本「混亂」的資料的熵(混亂度)減少,按照不同特徵劃分資料熵減少的程度會不一樣。在id3中選擇熵減少程度最大的特徵來劃分資料(貪心),也就是「最大資訊熵增益」原則。下面是計算公式

各符號定義請見《統計學習方法》p61

二.c4.5演算法

c4.5是ross quinlan在2023年在id3的基礎上改進而提出的。.id3採用的資訊增益度量存在乙個缺點,它一般會優先選擇有較多屬性值的特徵,因為屬性值多的特徵一般會有相對較大的資訊增益(資訊增益反映的給定乙個條件以後不確定性減少的程度,必然是分得越細的資料集確定性更高,也就是條件熵越小,資訊增益越大).為了避免這個不足c4.5中是用資訊增益比率(gain ratio)來作為選擇分支的準則。資訊增益比率通過引入乙個被稱作**資訊(split information)的項來懲罰取值較多的feature。除此之外,c4.5還彌補了id3中不能處理特徵屬性值連續的問題。

決策樹演算法 ID3 C4 5和CART

線性模型與決策樹模型的對比 線性模型是將所有的特徵轉變為概率,並對所有的特徵加權求和,從而對模型進行分類,只能找到線性分割,而決策樹模型是乙個乙個特徵的進行處理,對每乙個特徵進行劃分,可以找到非線性分割 id3演算法是一種貪心演算法,用來構建決策樹,id3起源於概念學習系統,以資訊熵的下降速度為選取...

機器學習 決策樹 ID3, C4 5

概念 決策樹 節點間的組織方式像一棵倒樹,以attribute 為節點,以 attribute 的不同值為分支。重點概念 1.資訊熵 熵是無序性 或不確定性 的度量指標。假如事件a 的全概率劃分是 a1,a2,an 每部分發生的概率是 p1,p2,pn 那資訊熵定義為 通常以 2為底數,所以資訊熵的...

機器學習 決策樹(ID3,C4 5)演算法解析

機器學習 決策樹 id3,c4.5 演算法解析 label 機器學習 決策樹 解析 決策樹實現思路 假設有已知的資料集x 例如某些人的集合,資料內容包括用於描述他們的特徵屬性及特徵屬性值,如性別 男 女 年齡 整數 收入 較低 中等 較高 等 以及資料集的分類標籤y 是否是某俱樂部的成員 是 否 對...