決策樹ID3和C4 5的區別

主要描述裡id3和c4.5的區別和改進，c4.5的優缺點，以及資訊增益與資訊增益比的計算方法

id3使用資訊增益作為特徵選擇的度量

c4.5使用資訊增益比作為特徵選擇的度量

資訊增益

g(d,a)=h(d)−h(d|a)g(d,a)=h(d)−h(d|a)

h(d)h(d)是資料集d的熵，計算公式h(d)=−∑kk=1|ck|nlog|ck|nh(d)=−∑k=1k|ck|nlog|ck|n

ckck是在資料集d中出現k類的數量，n是樣本的數量，類別的總數

h(d|a)h(d|a)是特徵a對與資料集d的條件熵，其意義是：在子集didi中y的分布。

計算方法是 h(d|a)=∑ni=1nin∑kk=1−(niknilognikni)h(d|a)=∑i=1nnin∑k=1k−(niknilognikni)

設特徵a是離散的，且有n個不同的取值：,根據特徵a的取值將d劃分為n個子集：d1,d2,...,dnd1,d2,...,dn，nini為對應的didi中的樣本數

綜合之後資訊增益的公式

g(d,a)=h(d)−h(d|a)=h(d)−∑ni=1nin∑kk=1−(niknilognikni)g(d,a)=h(d)−h(d|a)=h(d)−∑i=1nnin∑k=1k−(niknilognikni)

特徵a對訓練集d的資訊增益比gr(d,a)gr(d,a)定義為

gr(d,a)=g(d,a)ha(d)gr(d,a)=g(d,a)ha(d)

ha(d)=−∑ni=1ninlogninha(d)=−∑i=1nninlognin

ha(d)ha(d)刻畫了特徵a對訓練集d的分辨能力

c4.5繼承了id3的有點，並在以下幾個方面對id3演算法進行了改進：

c4.5的優點

- 產生分類的規則易於理解

- 準確率較高

c4.5的缺點

- 在構造樹的過程中需要多次對資料集進行掃瞄和排序，因而導致演算法的低效

- 只適用於能夠駐留在記憶體的資料集，當資料集大的無法在記憶體容納是程式無法執行

待補充

決策樹演算法 ID3和C4 5

id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下二資訊增益從資訊理論知識中我們直到，期望資訊越小，資訊增益越大，從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇，選擇後資訊增益最大的屬性進行下面先定義幾個要用到的概念。設d為用類別對訓練元組進...

ML筆記決策樹ID3和C4 5演算法的異同

決策樹作為監督學習演算法的經典，在商業上如電信客戶流失等具有廣泛的應用，常見的決策樹演算法有 id3 c4.5 c5.0等，其中id3演算法是基礎，另兩種為改進演算法，c5.0又作為一種商業軟體而存在，但我們可以呼叫r中的c50包實現該演算法，本文主要介紹id3 c4.5演算法的異同。資訊增...

ID3與C4 5的區別

無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述，只簡單歸納下兩者之間的區別。嚴格說來，c4.5其實不是某一種特定的決策樹演算法，而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性，而id3不可以。2.id3通過資訊增益...

決策樹ID3和C4 5的區別

決策樹演算法 ID3和C4 5

ML筆記 決策樹ID3和C4 5演算法的異同

ID3與C4 5的區別

相關推薦

ML筆記決策樹ID3和C4 5演算法的異同