DataWhale基礎演算法第三次作業決策樹

決策樹理論：

1.資訊理論基礎

（1）資訊熵

（2）聯合熵

（3）條件熵

（4）資訊增益

（5）基尼指數/基尼不純度

2：決策樹的不同分類演算法

（1）id3演算法

（2）c4.5

（3）cart分類樹

3.回歸樹的原理

4.決策樹防止過擬合的手段

剪枝處理

原本是物理學的定義，後來夏農將其引用到資訊理論領域，用於表示資訊量的大小。資訊量越大，對應的熵值越大。怎麼樣才能是資訊量比較大呢？越是不確定的事件，包含的資訊量也就越大，確定發生的，沒什麼懸念，包含的資訊量就很少了。

一維隨機變數分布推廣到多維隨機變數分布。

h(y|x) 表示在已知隨機變數 x 的條件下隨機變數 y 的不確定性。條件熵 h(y|x) 定義為 x 給定條件下 y 的條件概率分布的熵對 x 的數學期望。

採用資訊增益劃分資料。計算使用所有特徵劃分資料集，得到多個特徵劃分資料集的資訊增益，從這些資訊增益中選擇最大的，因而當前結點的劃分特徵便是使資訊增益最大的劃分所使用的特徵。

不足：資訊增益偏向取值較多的特徵。

採用資訊增益比劃分資料，彌補id3的不足

不足：只能進行分類

採用基尼係數劃分資料，可針對離散和連續型，可以做分類和回歸。

預剪枝：是在決策樹的生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化效能提公升，則停止劃分即結束樹的構建並將當前節點標記為葉結點。

後剪枝：是先從訓練集生成一棵完整的決策樹，然後自底向上地對葉結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹泛化為效能提公升，則將該子樹替換為葉結點。泛化效能的提公升可以使用交叉驗證資料來檢查修剪的效果，通過使用交叉驗證資料，測試擴充套件節點是否會帶來改進。如果顯示會帶來改進，那麼我們可以繼續擴充套件該節點。但是，如果精度降低，則不應該擴充套件，節點應該轉換為葉節點。

DataWhale基礎演算法第三次作業決策樹

MySQL基礎第三彈

Datawhale 零基礎入門CV

學習演算法第三題

DataWhale基礎演算法第三次作業 決策樹

MySQL基礎第三彈

Datawhale 零基礎入門CV

學習演算法第三題

相關推薦

DataWhale基礎演算法第三次作業決策樹