決策樹分為兩大類:分類樹和回歸樹,前者用於分類標籤值,後者用於**連續值,常用演算法有id3、c4.5、cart等。
資訊量:
資訊熵:
當計算出各個特徵屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性;如果資訊增益度的值越大,表示在該特徵屬性上會損失的純度越大 ,那麼該屬性就越應該在決策樹的上層,計算公式為:
gain為a為特徵對訓練資料集d的資訊增益,它為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差。
id3演算法是決策樹的乙個經典的構造演算法,內部使用資訊熵以及資訊增益來進行構建;每次迭代選擇資訊增益最大的特徵屬性作為分割屬性。
優點:決策樹構建速度快;實現簡單;
缺點:計算依賴於特徵數目較多的特徵,而屬性值最多的屬性並不一定最優id3演算法不是遞增演算法id3演算法是單變數決策樹,對於特徵屬性之間的關係不會考慮抗噪性差只適合小規模資料集,需要將資料放到記憶體中
在id3演算法的基礎上,進行演算法優化提出的一種演算法(c4.5);現在c4.5已經是特別經典的一種決策樹構造演算法;使用資訊增益率來取代id3演算法中的資訊增益,在樹的構造過程中會進行剪枝操作進行優化;能夠自動完成對連續屬性的離散化處理;c4.5演算法在選中分割屬性的時候選擇資訊增益率最大的屬性,涉及到的公式為:
優點:產生的規則易於理解準確率較高實現簡單
缺點:對資料集需要進行多次順序掃瞄和排序,所以效率較低只適合小規模資料集,需要將資料放到記憶體中
使用基尼係數作為資料純度的量化指標來構建的決策樹演算法就叫做cart(classification and regression tree,分類回歸樹)演算法。cart演算法使用gini增益作為分割屬性選擇的標準,選擇gini增益最大的作為當前資料集的分割屬性;可用於分類和回歸兩類問題。強調備註:cart構建是二叉樹。
id3和c4.5演算法均只適合在小規模資料集上使用
id3和c4.5演算法都是單變數決策樹
當屬性值取值比較多的時候,最好考慮c4.5演算法,id3得出的效果會比較差
決策樹分類一般情況只適合小資料量的情況(資料可以放記憶體)
cart演算法是三種演算法中最常用的一種決策樹構建演算法。
三種演算法的區別僅僅只是對於當前樹的評價標準不同而已,id3使用資訊增益、
c4.5使用資訊增益率、cart使用基尼係數。
cart演算法構建的一定是二叉樹,id3和c4.5構建的不一定是二叉樹。
ID3與C4 5的區別
無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述,只簡單歸納下兩者之間的區別。嚴格說來,c4.5其實不是某一種特定的決策樹演算法,而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性,而id3不可以。2.id3通過資訊增益...
ID3 和 C4 5的簡單比較
id3演算法是決策樹的乙個經典的構造演算法,在一段時期內曾是同類研究工作的比較物件,但通過近些年國內外學者的研究,id3演算法也暴露出一些問題,具體如下 1 資訊增益的計算依賴於特徵數目較多的特徵,而屬性取值最多的屬性並不一定最優。2 id3是非遞增演算法。3 id3是單變數決策樹 在分枝節點上只考...
決策樹演算法 ID3和C4 5
id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下 二 資訊增益 從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇 後資訊增益最大的屬性進行 下面先定義幾個要用到的概念。設d為用類別對訓練元組進...