c4.5演算法是用於生成決策樹的的一種經典演算法,是id3演算法的一種延伸和優化。改進了點:
(1)通過資訊增益率選擇**屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為**屬性的不足;
(2)能夠處理離散型和連續型的屬性型別,即將連續型的屬性進行離散化處理;
(3)構造決策樹之後進行剪枝操作;
(4)能夠處理具有缺失屬性值的訓練資料
id3 核心原則是每次切分都是通過「最大資訊熵增益」,但它一般會選擇有較多屬性值的feature,因為屬性越多的feature會有相對較大的資訊增益。
c4.5 相對id3 來說避免了採用資訊增益度量存在的乙個缺點 , 而c4.5 採用了資訊增益比率來選擇分支的準則
資訊增益比 = 懲罰引數 * 資訊增益
注意:其中的ha(d),對於樣本集合d,將當前特徵a作為隨機變數(取值是特徵a的各個特徵值),求得的經驗熵。
(之前是把集合類別作為隨機變數,現在把某個特徵作為隨機變數,按照此特徵的特徵取值對集合d進行劃分,計算熵ha(d))
資訊增益比本質: 是在資訊增益的基礎之上乘上乙個懲罰引數。特徵個數較多時,懲罰引數較小;特徵個數較少時,懲罰引數較大。
懲罰引數:資料集d以特徵a作為隨機變數的熵的倒數,即:將特徵a取值相同的樣本劃分到同乙個子集中(之前所說資料集的熵是依據類別進行劃分的)
缺點:資訊增益比偏向取值較少的特徵
原因: 當特徵取值較少時ha(d)的值較小,因此其倒數較大,因而資訊增益比較大。因而偏向取值較少的特徵。
使用資訊增益比:基於以上缺點,並不是直接選擇資訊增益率最大的特徵,而是現在候選特徵中找出資訊增益高於平均水平的特徵,然後在這些特徵中再選擇資訊增益率最高的特徵。
c4.5 通過引入乙個被稱作**資訊的項來懲罰取值較多的feature,還彌補了id3 中不能處理特徵屬性連續的問題,但對連續屬性值需要掃瞄排序,使c4.5效能下降
決策樹之C4 5演算法
c4.5演算法是機器學習中的乙個重要的決策樹演算法,它是對id3演算法的改進,相對於id3演算法主要有以下幾個改進 1 用資訊增益率來選擇屬性 2 在決策樹的構造過程中對樹進行剪枝 3 對非離散資料也能處理 4 能夠對不完整資料進行處理 接下來分別詳細講述這幾點的改進方案 1 用資訊增益率來選擇屬性...
C4 5決策樹演算法思想
前幾天有小夥伴問到這個演算法,於是想總結一下好了,畢竟是乙個如此著名的演算法,這裡就重在思想啦 建議配合實際例子學習。參考 1 周志華 機器學習 2 決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一...
決策樹之C4 5演算法
1.採用資訊增益率 因為 id3 在計算的時候,傾向於選擇取值多的屬性。為了避免這個問題,c4.5 採用資訊增益率的方式來選擇屬性。資訊增益率 資訊增益 屬性熵,具體的計算公式這裡省略。當屬性有很多值的時候,相當於被劃分成了許多份,雖然資訊增益變大了,但是對於 c4.5 來說,屬性熵也會變大,所以整...