id3演算法是決策樹的乙個經典的構造演算法,在一段時期內曾是同類研究工作的比較物件,但通過近些年國內外學者的研究,id3演算法也暴露出一些問題,具體如下:
(1)資訊增益的計算依賴於特徵數目較多的特徵,而屬性取值最多的屬性並不一定最優。
(2)id3是非遞增演算法。
(3)id3是單變數決策樹(在分枝節點上只考慮單個屬性),許多複雜概念的表達困難,屬性相互關係強調不夠,容易導致決策樹中子樹的重複或有些屬性在決策樹的某一路徑上被檢驗多次。
(4)抗噪性差,訓練例子中正例和反例的比例較難控制。
決策樹的經典構造演算法——c4.5(weka中稱j48)
由於id3演算法在實際應用中存在一些問題,於是quilan提出了c4.5演算法,嚴格上說c4.5只能是id3的乙個改進演算法。
c4.5演算法繼承了id3演算法的優點,並在以下幾方面對id3演算法進行了改進:
1) 用資訊增益率來選擇屬性,克服了用資訊增益選擇屬性時偏向選擇取值多的屬性的不足;
2) 在樹構造過程中進行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整資料進行處理。
c4.5演算法有如下優點:產生的分類規則易於理解,準確率較高。其缺點是:在構造樹的過程中,需要對資料集進行多次的順序掃瞄和排序,因而導致演算法的低效。此外,c4.5只適合於能夠駐留於記憶體的資料集,當訓練集大得無法在記憶體容納時程式無法執行。
另外,無論是id3還是c4.5最好在小資料集上使用,決策樹分類一般只試用於小資料。當屬性取值很多時最好選擇c4.5演算法,id3得出的效果會非常差。
C4 5和ID3的差別
決策樹分為兩大類 分類樹和回歸樹,前者用於分類標籤值,後者用於 連續值,常用演算法有id3 c4.5 cart等。資訊量 資訊熵 當計算出各個特徵屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性 如果資訊增益度的值越大,表示在該特徵屬性上會損失的純度越大 那麼該屬性就越應該在決策樹的...
ID3與C4 5的區別
無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述,只簡單歸納下兩者之間的區別。嚴格說來,c4.5其實不是某一種特定的決策樹演算法,而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性,而id3不可以。2.id3通過資訊增益...
決策樹演算法 ID3和C4 5
id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下 二 資訊增益 從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇 後資訊增益最大的屬性進行 下面先定義幾個要用到的概念。設d為用類別對訓練元組進...