參考資料:周志華機器學習書籍 和 datawhale開源資料 天池鏈結
決策樹基本流程:
決策樹的組成內涵:
決策樹的建立流程:
注意區別屬性和類別(標籤)。
劃分選擇
如何選擇最優的劃分屬性,決定了每個結點包含的樣本的純度。書中給出了三種劃分方法。
2.1 資訊增益
資訊熵:pk 表示當前樣本集合 d 中第 k 類樣本所佔比例。k = 1,2,…,|y|。
資訊增益:
資訊增益越大,使用屬性 a 來劃分所獲得的純度提公升越大。資訊增益對可取值數目較多的屬性有所偏好。
2.2 增益率
固有值:
增益率:
增益率對可取值數目較少的屬性有偏好。使用時,先選出資訊增益高於平均水平的,再從中選出增益率大的。
2.3 基尼指數
基尼指數越小,則資料集 d 的純度越高。
剪枝處理
剪枝處理是決策樹對付過擬合的主要手段,主動去掉一些分支。有兩種基本策略:預剪枝和後剪枝。
3.1 預剪枝
決策樹生成過程中,劃分前評估每個結點,若當前結點劃分不能帶來泛化效能的提公升,則停止劃分,並將當前結點標記為葉結點。預剪枝導致很多分支未展開,對後續劃分有影響,容易欠擬合。
3.2 後剪枝
生成一棵完整的決策樹,然後自底向上對非葉結點考察,若將該結點對應的子樹替換為葉結點能帶來泛化能力的提公升,則將該子樹替換為葉結點。後剪枝保留了更多分支,泛化能力更好,但是訓練時間開銷大。
連續值與缺失值
4.1 連續值處理
以上的內容都是針對離散屬性來說的,實際上會遇到連續值型別的屬性。對於連續屬性,可取值數目不再有限,需要採用離散化方法,最簡單的策略是二分法,選擇劃分點 t 將資料集分為在 a 屬性上值不大於 t 的樣本和大於 t 的樣本。事先先把屬性集合從小到大排序,t 的取值集合為:
根據資訊增益最大標準,選擇最優的 t 值,使劃分結果最好。
4.2 缺失值處理
缺失值指樣本的某些屬性值缺失。在劃分屬性時,針對某一屬性,對除去有缺失值樣本後剩餘的子集進行資訊增益計算,然後乘以無缺失值的樣本佔全部樣本的比例,得到全部樣本的集合的資訊增益。
多變數決策樹
決策樹中,每個屬性都可以看作乙個座標軸,d個屬性即對應d維空間,乙個樣本就對應空間中乙個點。決策樹的分類邊界是多幹個分段,每段對應乙個屬性取值,且都與乙個軸平行。這樣的話,模型容易變複雜。
多變數決策樹實現了斜劃分邊界,簡化了模型。非葉結點不再是僅僅對應某個屬性,而是對屬性的線性組合測試,劃分最優屬性變為建立乙個合適的線性分類器。
決策樹分類方法在 庫 sklearn 中已經封裝好,可以直接使用。
機器學習(2) 決策樹
前言 決策樹是一種機器學習的方法。決策樹是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果。決策樹需要監管學習。監管學習就是給出一堆樣本,每個樣本都有一組屬性和乙個分類結果,也就是分類結果已知,那麼通過學習這些樣本得到的決策樹,這個決...
機器學習 2 決策樹
用年齡 收入 是否學生 信用度高低來判斷是否購買電腦為例子 資訊 如果待分類的事物可能劃分在多個類之中,則符號xi的資訊定義為 上例中,買電腦的概率為9 14,那麼yes的資訊為 同理,no的資訊為 資訊熵 即資訊期望值。公式如下 即 在決策樹id3演算法中,選擇使用資訊獲取量 informatio...
機器學習筆記 決策樹學習
決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...