* 熵計算公式 h(x) = -∑p(xi)log(2,p(xi)) (i=1,2,..n)
* 栗子1 義烏雜貨市場商品很多很混亂熵值會比較大
* 栗子2 蘋果專賣店只有蘋果品牌比較穩定,熵值很小
資訊增益:表示特徵x使得類y的不確定減少的程度
gini係數:
(2-1) 14天outlook情況:outlook = sunny時,熵值為0.971 outlook = overcast時,熵值為0 outlook = rainy時,熵值為0.971
(2-2)outlook取值分別為sunny,overcast,rainy的概率分別為: 5/14, 4/14, 5/14
(2-3)熵值計算:5/14 * 0.971 + 4/14 * 0 + 5/14 * 0.971 = 0.693
(3)id3演算法 資訊增益:系統的熵值從原始的0.940下降到了0.693,增益為0.247(1)預剪枝(常用):建立決策樹同時進行剪枝 限制深度&葉子節點個數&葉子節點樣本數&資訊增益量
(2)後剪枝 建立完決策樹後進行剪枝
tleaf 葉子節點個數 c(t)=gini*samples 表示當前的損失 cα(t)越小越好
決策樹 結構 決策樹及其基本概念
決策樹主要知識 決策樹 決策樹 在分類問題中,表示基於特徵對例項進行分類的過程。決策樹可以認為是1.if then規則的集合 2.定義在特徵空間與類空間上的條件概率分布。決策樹優點 模型具有可讀性,分類速度快。決策樹學習與 過程 決策樹 分類決策樹描述對例項進行分類的樹形結構。由結點 node 節點...
資料分析 決策樹演算法 決策樹的概念
顧名思義,決策樹將以樹狀結構表現出來,被用來輔助作出決策。具體結合例子來說,我們平時做決策時大多會伴隨著層層的選擇,比如找房子的時候,會考慮離工作 上課地點的距離 大小和 光照等等因素。如果乙個房子通勤快 低 光照好 空間大 雖然不太可能存在,但是只要存在這種房子 我們一定會作出 買 租 的決策。將...
決策樹概念學習
決策樹 decision tree 是在已知各種情況發生概率的基礎上,通過構成決策樹來求取淨現值的期望值大於等於零的概率,評價專案風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種 法。由於這種決策分支畫成圖形很像一棵樹的枝幹,故稱決策樹。在機器學習中,決策樹是乙個 模型,他代表的是物件屬性...