決策樹演算法梳理

2021-09-11 22:09:14 字數 1391 閱讀 6755

熵:又稱為自資訊,度量隨機變數的不確定性。(純度)

聯合熵: 聯合熵是描述一對隨機變數平均所需要的資訊量

條件熵:h(y|x)表示在已知隨機變數 x 的條件下,隨機變數 y 的不確定性

資訊增益:以某特徵劃分資料集前後的熵的差值

基尼不純度:指將來自集合中的某種結果隨機應用在集合中,某一資料項的預期誤差率。

id3演算法:在決策樹各結點上運用資訊增益準則選擇特徵,遞迴的構建決策樹。

c4.5演算法:使用資訊增益比作為劃分訓練資料集的特徵,可以校正id3演算法偏向於選擇取值較多的特徵這一問題。

cart:cart是一棵二叉樹,採用二元切分法,每次把資料切成兩份,分別進入左子樹、右子樹。而且每個非葉子節點都有兩個孩子,所以cart的葉子節點比非葉子多1。相比id3和c4.5,cart應用要多一些,既可以用於分類也可以用於回歸。

回歸樹總體流程類似於分類樹,不過在每個節點(不一定是葉子節點)都會得乙個**值,以年齡為例,該**值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每乙個feature的每個閾值找最好的分割點,但衡量最好的標準不再是最大熵,而是最小化均方差–即(每個人的年齡-**年齡)^2 的總和 / n,或者說是每個人的**誤差平方和 除以 n。這很好理解,被**出錯的人數越多,錯的越離譜,均方差就越大,通過最小化均方差能夠找到最靠譜的分枝依據。分枝直到每個葉子節點上人的年齡都唯一(這太難了)或者達到預設的終止條件(如葉子個數上限),若最終葉子節點上人的年齡不唯一,則以該節點上所有人的平均年齡做為該葉子節點的**年齡。

剪枝(預剪枝和後剪枝)

預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化能力提公升,則停止劃分並將當前節點標記為葉結點;後剪枝則是先從訓練集生成一顆完整的決策樹,然後自底向上地對非葉結點進行考察,若將該節點對應的子樹替換為葉結點能帶來決策樹泛化能力提公升,則將該子樹替換為葉結點。

評估指標有分類準確度、召回率、虛警率和精確度等。

評估方法有保留法、隨機二次抽樣、交叉驗證和自助法等。

sklearn.tree.decisiontreeclassifier

(criterion='gini', splitter='best', max_depth=none, min_samples_split=2,

min_samples_leaf=1,min_weight_fraction_leaf=0.0, max_features=none,

random_state=none, max_leaf_nodes=none, min_impurity_decrease=0.0,

min_impurity_split=none, class_weight=none, presort=false)

決策樹演算法梳理

熵 entropy 在資訊理論與概率統計中,熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 熵只依賴於x的分布,而與x的取值無關,所以也可將x的熵記作h 即 熵取值最大,隨機變數不確定性最大。條件熵 設有隨機變數 x,y 其...

決策樹演算法梳理

1.資訊理論基礎 資訊熵 資訊熵是度量樣本的集合純度最常用的一種指標。在資訊理論和概率統計中,熵是表示隨機變數不確定性的度量。聯合熵 兩個隨機變數x,y的聯合分布,可以形成聯合熵joint entropy,用h x,y 表示。條件熵 設有隨機變數 x,y 其聯合概率分布為 條件熵h y x 表示在已...

決策樹演算法梳理

決策樹通常包括三個步驟 特徵選擇,決策樹生成和決策樹剪枝 決策樹的生成過程就是 使用滿足劃分準則的特徵不斷的將資料集劃分為純度更高,不確定性更小的子集的過程。id3 採用資訊增益劃分資料。計算使用所有特徵劃分資料集,得到多個特徵劃分資料集的資訊增益,從這些資訊增益中選擇最大的,因而當前結點的劃分特徵...