概念:
決策樹:節點間的組織方式像一棵倒樹,以attribute
為節點,以
attribute
的不同值為分支。
重點概念:
1. 資訊熵:
熵是無序性(或不確定性)的度量指標。假如事件a
的全概率劃分是(
a1,a2,...,an
),每部分發生的概率是
(p1,p2,...,pn)
,那資訊熵定義為:(通常以
2為底數,所以資訊熵的單位是
bit)
熵越大,越無序。當事件a
發生概率很大時,熵很小(所以有負號),越穩定。
由上可知,我們希望構造一棵熵遞減的樹(屬性加得越多,越穩定),而且熵縮小地越快越好,這樣可以得到一棵最矮的樹。
2. 資訊增益:
3. 集合s
對於屬性
a的**資訊:
5. 樹的構造:
樹的構造涉及到屬性的選擇。哪個屬性作為根節點呢?首先根據每個屬性計算屬性相對應的資訊熵,然後計算不考慮任何屬性的整體資訊熵。有了以上兩類資訊熵,便可以計算針對每個屬性的資訊增益以及資訊增益率。選擇資訊增益最大的為優先屬性(id3
)或選擇資訊增益率最大的屬性為優先屬性(
c4.5)
6. 圖的形象表示:
7. 決策樹優點:
a) 訓練資料可以包含錯誤。
b) 訓練資料可以包含缺少屬性值的例項。8. 避免過度擬合:
a) 錯誤率降低修剪
i. 修剪乙個結點的步驟:
ii. ·刪除以此結點為根的子樹,使它成為葉子結點,把和該結點關聯的訓練樣例的最常見分類賦給它。
iii. ·僅當修剪後的樹對於驗證集合的效能不比原來的樹差時才刪除該結點。
iv. 反覆修剪結點,每次總是選擇那些刪除後可以最大提高決策樹在驗證集合上的精度的結點。直到進一步的修剪是有害的為止(即降低了在驗證集合上的精度)。
b) 規則後修剪(c4.5)
i. 從訓練集合推導出決策樹,增長決策樹直到盡可能好地模擬訓練資料,允許過度擬合發生。
ii. 將決策樹轉化為等價的規則集合,方法是從根結點到葉子結點的每一條路徑建立一條規則。
iii. 通過刪除任何能導致估計精度提高的前件(precondition)來修剪(泛化)每一條規則。
iv. 按照修剪過的規則的估計精度對它們進行排序,並按照這樣的順序應用這些規則來分類後來的例項。9. id3和
c4.5
比較
a) id3用資訊增益選擇屬性時偏向於選擇分枝比較多的屬性值,即取值多的屬性;c4.5
削弱了這個屬性。
b) id3不能處理連貫屬性(相互有關係的屬性)參考鏈結
機器學習 決策樹(ID3,C4 5)演算法解析
機器學習 決策樹 id3,c4.5 演算法解析 label 機器學習 決策樹 解析 決策樹實現思路 假設有已知的資料集x 例如某些人的集合,資料內容包括用於描述他們的特徵屬性及特徵屬性值,如性別 男 女 年齡 整數 收入 較低 中等 較高 等 以及資料集的分類標籤y 是否是某俱樂部的成員 是 否 對...
機器學習 決策樹ID3 C4 5和CART
決策樹又稱為判定樹,是運用於分類的一種樹結構,其中的每個內部節點代表對某一屬性的一次測試,每條邊代表乙個測試結果,葉節點代表某個類或類的分布。決策樹的決策過程需要從決策樹的根節點開始,待測資料與決策樹中的特徵節點進行比較,並按照比較結果選擇選擇下一比較分支,直到葉子節點作為最終的決策結果。常見的決策...
決策樹演算法 ID3 C4 5和CART
線性模型與決策樹模型的對比 線性模型是將所有的特徵轉變為概率,並對所有的特徵加權求和,從而對模型進行分類,只能找到線性分割,而決策樹模型是乙個乙個特徵的進行處理,對每乙個特徵進行劃分,可以找到非線性分割 id3演算法是一種貪心演算法,用來構建決策樹,id3起源於概念學習系統,以資訊熵的下降速度為選取...