決策樹總結

2022-07-19 20:57:29 字數 456 閱讀 3623

眾所周知,決策樹是一種樹模型,可以用於分類和回歸。這裡總結一下自己認為重要的知識點:

前置概念:

熵:一種衡量不確定性的指標

條件熵:給定條件下的熵值

基尼不純度:表示乙個隨機選中的樣本在子集中被分錯的可能性(被選中概率*被分錯概率)

資訊增益:熵-條件熵

(1)三大經典決策樹:

id3:選擇特徵的依據是資訊增益,選擇資訊增益大的特徵去劃分

c4.5:選擇特徵的依據是資訊增益比,選擇資訊增益比大的特徵去劃分

cart演算法:gini指數,選擇基尼指數差值大的特徵去劃分

(2)防止過擬合:

1.預剪枝,在訓練時可以設定引數 ,設定樹的層數,每個葉子包含的最少數量等等  

2.後剪枝,剪枝標準是使用測試集評估,或者使用訓練集統計分析(誤差統計和重要性原則),重要性原則是指判斷某兩個特徵是否相關性比較大,相關性較小的就不進行剪枝

決策樹總結

決策樹是一種應用廣泛的機器學習演算法,過程簡單,結果易於解釋。決策樹是一種貪心演算法,它在給定時間給做出最佳選擇,並不關心能否達到全域性最優。決策樹特點 id3 不能處理連續資料,沒有剪枝過程,採用資訊增益作為標準尋找最優特徵,這種方法偏向屬性取值多的特徵。id3每次選取當前最佳的特徵來分割資料,並...

決策樹模型總結

1 決策樹定義 決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣,其核心思想就是在乙個資料集上找到乙個最優的特徵,然後從這個特徵的選值中找到乙個最優的候選值,根據這個最優候選值將資料集劃分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。以下主要介紹分類決策樹。決策樹的生成過程主要包...

決策樹面試總結

1 概括 顧名思義,決策樹就是一棵樹,一顆決策樹包含乙個根節點 若干個內部結點和若干個葉結點 葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試 每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中 根結點包含樣本全集,從根結點到每個葉子結點的路徑對應了乙個判定測試序列。決策樹學習的演算法通...