一、cart與id3的區別
通過之前的研究發現,cart與id3演算法都是基於資訊理論的決策樹演算法,cart演算法是一種通過計算diversity(整體)-diversity(左節點)-diversity(右節點)的值取最佳分割的演算法。id3和cart演算法的區別主要集中在樹的生成和樹的修剪方面,但是id3演算法只能處理離散型的描述性屬性。c4.5演算法是id3演算法的後續演算法,它能夠處理連續型資料。
cart與id3區別:
1、cart中用於選擇變數的不純性度量是gini指數;
2、如果目標變數是標稱的,並且是具有兩個以上的類別,則cart可能考慮將目標類別合併成兩個超類別(雙化);
二、c4.5離散化的過程
c4.5演算法是構造決策樹分類器的一種演算法。這種演算法利用比較各個描述性屬性的資訊增益值(information gain)的大小,來選擇gain值最大的屬性進行分類。如果存在連續型的描述性屬性,那麼首先要把這些連續型屬性的值分成不同的區間,即「離散化」。把連續型屬性值「離散化」的方法是:
1.尋找該連續型屬性的最小值,並把它賦值給min,尋找該連續型屬性的最大值,並把它賦值給max;
2.設定區間【min,max】中的n個等分斷點ai,它們分別是ai=min+(max-min)/n*i,其中,i=1,2,……,n;
3.分別計算把【min,ai】和(ai,max】(i=1,2,……,n)作為區間值時的gain值,並進行比較;
4.選取gain值最大的ak作為該連續型屬性的斷點,把屬性值設定為【min,ak】和(ak,max】兩個區間值。
ID3與C4 5的區別
無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述,只簡單歸納下兩者之間的區別。嚴格說來,c4.5其實不是某一種特定的決策樹演算法,而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性,而id3不可以。2.id3通過資訊增益...
C4 5和ID3的差別
決策樹分為兩大類 分類樹和回歸樹,前者用於分類標籤值,後者用於 連續值,常用演算法有id3 c4.5 cart等。資訊量 資訊熵 當計算出各個特徵屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性 如果資訊增益度的值越大,表示在該特徵屬性上會損失的純度越大 那麼該屬性就越應該在決策樹的...
決策樹ID3和C4 5的區別
主要描述裡id3和c4.5的區別和改進,c4.5的優缺點,以及資訊增益與資訊增益比的計算方法 id3使用資訊增益作為特徵選擇的度量 c4.5使用資訊增益比作為特徵選擇的度量 資訊增益 g d,a h d h d a g d,a h d h d a h d h d 是資料集d的熵,計算公式h d kk...