決策樹演算法 2 C4 5演算法

2021-10-08 06:49:27 字數 1411 閱讀 1947

c

4.5c4.5

c4.5

演算法是基於 id3

id3id

3 演算法的改良,c

4.5c4.5

c4.5

演算法不直接使用資訊增益,而是使用「資訊增益率」來選擇最優劃分屬性。

基於 id3

id3id

3 演算法的優化:

1) 用資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足;

2) 在樹構造過程中進行剪枝;

3) 能夠完成對連續屬性的離散化處理;

4) 能夠對不完整資料進行處理。

資訊增益準則對可取值數目較多的屬性有所偏好,然而這樣的決策樹顯然不具有泛化能力,無法對新樣本進行有效**。而 c

4.5c4.5

c4.5

演算法不直接使用資訊增益,而是使用「資訊增益率」來選擇最優劃分屬性,假定當前樣本集合為 d

dd,資訊增益率定義為:

g ai

n_ra

tio(

d,a)

=gai

n(d,

a)iv

(a

)gain\_ratio(d,a)=\frac

gain_r

atio

(d,a

)=iv

(a)g

ain(

d,a)

​其中i v(

a)=−

∑v=1

v∣dv

∣∣d∣

log2

∣dv∣

∣d

∣iv(a)=-\sum^v_\fraclog_2\frac

iv(a)=

−v=1

∑v​∣

d∣∣d

v∣​l

og2​

∣d∣∣

dv∣​

稱為屬性 a

aa 的「固有值」。它的定義與資訊熵類似,資訊熵衡量的是樣本集在類別上的混亂程度,而固有值衡量的是樣本集在某個屬性上的混亂程度。若屬性 a

aa 的可能取值數目 v

vv 越大,iv(

a)

iv(a)

iv(a

) 的值通常會越大,即該屬性混亂程度越高。

需要注意的是,資訊增益率準則對可取值數目較少的屬性有所偏好。因此,c

4.5c4.5

c4.5

演算法並不是直接選擇資訊增益率最大的候選劃分屬性,而是使用了乙個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的

c

4.5c4.5

c4.5

的不足之處:

reference:《機器學習》

決策樹 C4 5演算法

c4.5演算法是用於生成決策樹的的一種經典演算法,是id3演算法的一種延伸和優化。改進了點 1 通過資訊增益率選擇 屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為 屬性的不足 2 能夠處理離散型和連續型的屬性型別,即將連續型的屬性進行離散化處理 3 構造決策樹之後進行剪枝操...

決策樹之C4 5演算法

c4.5演算法是機器學習中的乙個重要的決策樹演算法,它是對id3演算法的改進,相對於id3演算法主要有以下幾個改進 1 用資訊增益率來選擇屬性 2 在決策樹的構造過程中對樹進行剪枝 3 對非離散資料也能處理 4 能夠對不完整資料進行處理 接下來分別詳細講述這幾點的改進方案 1 用資訊增益率來選擇屬性...

C4 5決策樹演算法思想

前幾天有小夥伴問到這個演算法,於是想總結一下好了,畢竟是乙個如此著名的演算法,這裡就重在思想啦 建議配合實際例子學習。參考 1 周志華 機器學習 2 決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一...