機器學習筆記2 決策樹

參考資料：周志華機器學習書籍和 datawhale開源資料天池鏈結

決策樹基本流程：

決策樹的組成內涵：

決策樹的建立流程：

注意區別屬性和類別（標籤）。

劃分選擇

如何選擇最優的劃分屬性，決定了每個結點包含的樣本的純度。書中給出了三種劃分方法。

2.1 資訊增益

資訊熵：pk 表示當前樣本集合 d 中第 k 類樣本所佔比例。k = 1，2，…，|y|。

資訊增益：

資訊增益越大，使用屬性 a 來劃分所獲得的純度提公升越大。資訊增益對可取值數目較多的屬性有所偏好。

2.2 增益率

固有值：

增益率：

增益率對可取值數目較少的屬性有偏好。使用時，先選出資訊增益高於平均水平的，再從中選出增益率大的。

2.3 基尼指數

基尼指數越小，則資料集 d 的純度越高。

剪枝處理

剪枝處理是決策樹對付過擬合的主要手段，主動去掉一些分支。有兩種基本策略：預剪枝和後剪枝。

3.1 預剪枝

決策樹生成過程中，劃分前評估每個結點，若當前結點劃分不能帶來泛化效能的提公升，則停止劃分，並將當前結點標記為葉結點。預剪枝導致很多分支未展開，對後續劃分有影響，容易欠擬合。

3.2 後剪枝

生成一棵完整的決策樹，然後自底向上對非葉結點考察，若將該結點對應的子樹替換為葉結點能帶來泛化能力的提公升，則將該子樹替換為葉結點。後剪枝保留了更多分支，泛化能力更好，但是訓練時間開銷大。

連續值與缺失值

4.1 連續值處理

以上的內容都是針對離散屬性來說的，實際上會遇到連續值型別的屬性。對於連續屬性，可取值數目不再有限，需要採用離散化方法，最簡單的策略是二分法，選擇劃分點 t 將資料集分為在 a 屬性上值不大於 t 的樣本和大於 t 的樣本。事先先把屬性集合從小到大排序，t 的取值集合為：

根據資訊增益最大標準，選擇最優的 t 值，使劃分結果最好。

4.2 缺失值處理

缺失值指樣本的某些屬性值缺失。在劃分屬性時，針對某一屬性，對除去有缺失值樣本後剩餘的子集進行資訊增益計算，然後乘以無缺失值的樣本佔全部樣本的比例，得到全部樣本的集合的資訊增益。

多變數決策樹

決策樹中，每個屬性都可以看作乙個座標軸，d個屬性即對應d維空間，乙個樣本就對應空間中乙個點。決策樹的分類邊界是多幹個分段，每段對應乙個屬性取值，且都與乙個軸平行。這樣的話，模型容易變複雜。

多變數決策樹實現了斜劃分邊界，簡化了模型。非葉結點不再是僅僅對應某個屬性，而是對屬性的線性組合測試，劃分最優屬性變為建立乙個合適的線性分類器。

決策樹分類方法在庫 sklearn 中已經封裝好，可以直接使用。

機器學習（2）決策樹

前言決策樹是一種機器學習的方法。決策樹是一種樹形結構，其中每個內部節點表示乙個屬性上的判斷，每個分支代表乙個判斷結果的輸出，最後每個葉節點代表一種分類結果。決策樹需要監管學習。監管學習就是給出一堆樣本，每個樣本都有一組屬性和乙個分類結果，也就是分類結果已知，那麼通過學習這些樣本得到的決策樹，這個決...

機器學習 2 決策樹

用年齡收入是否學生信用度高低來判斷是否購買電腦為例子資訊如果待分類的事物可能劃分在多個類之中，則符號xi的資訊定義為上例中，買電腦的概率為9 14，那麼yes的資訊為同理，no的資訊為資訊熵即資訊期望值。公式如下即在決策樹id3演算法中，選擇使用資訊獲取量 informatio...

機器學習筆記決策樹學習

決策樹學習是一種逼近離散值目標函式的方法，在這樣的方法中學習到的函式被表示為一棵決策樹。表示法把例項從根節點排列到某個葉子節點來分類例項，葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試，而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...

機器學習 筆記2 決策樹

機器學習（2） 決策樹

機器學習 2 決策樹

機器學習筆記 決策樹學習

相關推薦

機器學習筆記2 決策樹

機器學習（2）決策樹

機器學習筆記決策樹學習