C4 5決策樹 為什麼可以選用資訊增益來選特徵

2021-07-11 10:10:11 字數 682 閱讀 9577

要理解資訊增益,首先要明白熵是什麼,開始很不理解熵,其實本質來看熵是乙個度量值,這個值的大小能夠很好的解釋一些問題。

所以c4.5使用了資訊增益率,在資訊增益的基礎上除了一項split information,來懲罰值更多的屬性。 ga

inra

tio=

δspl

itin

fo s

plit

info

=−∑i

=1kp

(vi)

log2

p(vi

) δ=

i(pa

rent

)−∑j

=1kn

(vj)

ni(v

j)上式的劃分資訊:k代表劃分總數,k越大,那麼劃分資訊很大,將降低資訊增益率,比如2類劃分值為lo

g22 ,三類劃分值為lo

g2(3

)

決策樹 C4 5演算法

c4.5演算法是用於生成決策樹的的一種經典演算法,是id3演算法的一種延伸和優化。改進了點 1 通過資訊增益率選擇 屬性,克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為 屬性的不足 2 能夠處理離散型和連續型的屬性型別,即將連續型的屬性進行離散化處理 3 構造決策樹之後進行剪枝操...

決策樹之C4 5演算法

c4.5演算法是機器學習中的乙個重要的決策樹演算法,它是對id3演算法的改進,相對於id3演算法主要有以下幾個改進 1 用資訊增益率來選擇屬性 2 在決策樹的構造過程中對樹進行剪枝 3 對非離散資料也能處理 4 能夠對不完整資料進行處理 接下來分別詳細講述這幾點的改進方案 1 用資訊增益率來選擇屬性...

C4 5決策樹演算法思想

前幾天有小夥伴問到這個演算法,於是想總結一下好了,畢竟是乙個如此著名的演算法,這裡就重在思想啦 建議配合實際例子學習。參考 1 周志華 機器學習 2 決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一...