決策樹之C4 5演算法

2021-06-29 09:39:42 字數 665 閱讀 6196

c4.5演算法是機器學習中的乙個重要的決策樹演算法,它是對id3演算法的改進,相對於id3演算法主要有以下幾個改進

(1)用資訊增益率來選擇屬性

(2)在決策樹的構造過程中對樹進行剪枝

(3)對非離散資料也能處理

(4)能夠對不完整資料進行處理

接下來分別詳細講述這幾點的改進方案

(1)用資訊增益率來選擇屬性

在id3演算法中,我們知道是用資訊增益來選擇屬性的,而資訊增益的缺點是比較偏向選擇取值較多的屬性,

在c4.5演算法中,除了一項**資訊來懲罰取值更多的屬性,所以得到如下公式

其中(2)在決策樹的構造過程中對樹進行剪枝

在c4.5演算法中,採用了悲觀剪枝的方法,它使用訓練集生成決策樹,又用訓練集來進行剪枝。

悲觀剪枝法的基本原理參考:

(3)對非離散資料也能處理

其實c4.5演算法對連續性資料的處理也是當作離散資料處理的,具體可以參考上面的鏈結。

最後介紹乙個機器學習軟體weka,weka中c4.5演算法的使用參考:

決策樹之C4 5演算法

1.採用資訊增益率 因為 id3 在計算的時候,傾向於選擇取值多的屬性。為了避免這個問題,c4.5 採用資訊增益率的方式來選擇屬性。資訊增益率 資訊增益 屬性熵,具體的計算公式這裡省略。當屬性有很多值的時候,相當於被劃分成了許多份,雖然資訊增益變大了,但是對於 c4.5 來說,屬性熵也會變大,所以整...

決策樹 C4 5演算法

c4.5演算法是用於生成決策樹的的一種經典演算法,是id3演算法的一種延伸和優化。改進了點 1 通過資訊增益率選擇 屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為 屬性的不足 2 能夠處理離散型和連續型的屬性型別,即將連續型的屬性進行離散化處理 3 構造決策樹之後進行剪枝操...

決策樹構建演算法之 C4 5

決策樹演算法的優越性在於 離散學習演算法進行組合總可以表達任意複雜的布林函式,並不受資料集的限制即學習沒有飽和性,只是現實應用受限於時間和計算能力,一般不能滿足不飽和性。c4.5是機器學習演算法中的另乙個分類決策樹演算法,它是基於id3演算法進行改進後的一種重要演算法,相比於id3演算法,改進有如下...