主要描述裡id3和c4.5的區別和改進,c4.5的優缺點,以及資訊增益與資訊增益比的計算方法
id3使用資訊增益作為特徵選擇的度量
c4.5使用資訊增益比作為特徵選擇的度量
資訊增益
g(d,a)=h(d)−h(d|a)g(d,a)=h(d)−h(d|a)
h(d)h(d)是資料集d的熵,計算公式h(d)=−∑kk=1|ck|nlog|ck|nh(d)=−∑k=1k|ck|nlog|ck|n
ckck是在資料集d中出現k類的數量,n是樣本的數量,類別的總數
h(d|a)h(d|a)是特徵a對與資料集d的條件熵,其意義是:在子集didi中y的分布。
計算方法是 h(d|a)=∑ni=1nin∑kk=1−(niknilognikni)h(d|a)=∑i=1nnin∑k=1k−(niknilognikni)
設特徵a是離散的,且有n個不同的取值:,根據特徵a的取值將d劃分為n個子集:d1,d2,...,dnd1,d2,...,dn,nini為對應的didi中的樣本數
綜合之後資訊增益的公式
g(d,a)=h(d)−h(d|a)=h(d)−∑ni=1nin∑kk=1−(niknilognikni)g(d,a)=h(d)−h(d|a)=h(d)−∑i=1nnin∑k=1k−(niknilognikni)
特徵a對訓練集d的資訊增益比gr(d,a)gr(d,a)定義為
gr(d,a)=g(d,a)ha(d)gr(d,a)=g(d,a)ha(d)
ha(d)=−∑ni=1ninlogninha(d)=−∑i=1nninlognin
ha(d)ha(d)刻畫了特徵a對訓練集d的分辨能力
c4.5繼承了id3的有點,並在以下幾個方面對id3演算法進行了改進:
c4.5的優點
- 產生分類的規則易於理解
- 準確率較高
c4.5的缺點
- 在構造樹的過程中需要多次對資料集進行掃瞄和排序,因而導致演算法的低效
- 只適用於能夠駐留在記憶體的資料集,當資料集大的無法在記憶體容納是程式無法執行
待補充
決策樹演算法 ID3和C4 5
id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下 二 資訊增益 從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇 後資訊增益最大的屬性進行 下面先定義幾個要用到的概念。設d為用類別對訓練元組進...
ML筆記 決策樹ID3和C4 5演算法的異同
決策樹作為監督學習演算法的經典,在商業上 如 電信客戶流失 等 具有廣泛的應用,常見的決策樹演算法有 id3 c4.5 c5.0等,其中id3演算法是基礎,另兩種為改進演算法,c5.0又作為一種商業軟體而存在,但我們可以呼叫r中的c50包實現該演算法,本文主要介紹id3 c4.5演算法的異同。資訊增...
ID3與C4 5的區別
無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述,只簡單歸納下兩者之間的區別。嚴格說來,c4.5其實不是某一種特定的決策樹演算法,而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性,而id3不可以。2.id3通過資訊增益...