眾所周知,決策樹是一種樹模型,可以用於分類和回歸。這裡總結一下自己認為重要的知識點:
前置概念:
熵:一種衡量不確定性的指標
條件熵:給定條件下的熵值
基尼不純度:表示乙個隨機選中的樣本在子集中被分錯的可能性(被選中概率*被分錯概率)
資訊增益:熵-條件熵
(1)三大經典決策樹:
id3:選擇特徵的依據是資訊增益,選擇資訊增益大的特徵去劃分
c4.5:選擇特徵的依據是資訊增益比,選擇資訊增益比大的特徵去劃分
cart演算法:gini指數,選擇基尼指數差值大的特徵去劃分
(2)防止過擬合:
1.預剪枝,在訓練時可以設定引數 ,設定樹的層數,每個葉子包含的最少數量等等
2.後剪枝,剪枝標準是使用測試集評估,或者使用訓練集統計分析(誤差統計和重要性原則),重要性原則是指判斷某兩個特徵是否相關性比較大,相關性較小的就不進行剪枝
決策樹總結
決策樹是一種應用廣泛的機器學習演算法,過程簡單,結果易於解釋。決策樹是一種貪心演算法,它在給定時間給做出最佳選擇,並不關心能否達到全域性最優。決策樹特點 id3 不能處理連續資料,沒有剪枝過程,採用資訊增益作為標準尋找最優特徵,這種方法偏向屬性取值多的特徵。id3每次選取當前最佳的特徵來分割資料,並...
決策樹模型總結
1 決策樹定義 決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣,其核心思想就是在乙個資料集上找到乙個最優的特徵,然後從這個特徵的選值中找到乙個最優的候選值,根據這個最優候選值將資料集劃分為兩個子資料集,然後遞迴上述操作,直到滿足指定條件為止。以下主要介紹分類決策樹。決策樹的生成過程主要包...
決策樹面試總結
1 概括 顧名思義,決策樹就是一棵樹,一顆決策樹包含乙個根節點 若干個內部結點和若干個葉結點 葉結點對應於決策結果,其他每個結點則對應於乙個屬性測試 每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中 根結點包含樣本全集,從根結點到每個葉子結點的路徑對應了乙個判定測試序列。決策樹學習的演算法通...