機器學習 筆記2 決策樹

2021-10-23 16:34:34 字數 2087 閱讀 9737

參考資料:周志華機器學習書籍 和 datawhale開源資料 天池鏈結

決策樹基本流程:

決策樹的組成內涵:

決策樹的建立流程:

注意區別屬性和類別(標籤)。

劃分選擇

如何選擇最優的劃分屬性,決定了每個結點包含的樣本的純度。書中給出了三種劃分方法。

2.1 資訊增益

資訊熵:pk 表示當前樣本集合 d 中第 k 類樣本所佔比例。k = 1,2,…,|y|。

資訊增益:

資訊增益越大,使用屬性 a 來劃分所獲得的純度提公升越大。資訊增益對可取值數目較多的屬性有所偏好。

2.2 增益率

固有值:

增益率:

增益率對可取值數目較少的屬性有偏好。使用時,先選出資訊增益高於平均水平的,再從中選出增益率大的。

2.3 基尼指數

基尼指數越小,則資料集 d 的純度越高。

剪枝處理

剪枝處理是決策樹對付過擬合的主要手段,主動去掉一些分支。有兩種基本策略:預剪枝和後剪枝。

3.1 預剪枝

決策樹生成過程中,劃分前評估每個結點,若當前結點劃分不能帶來泛化效能的提公升,則停止劃分,並將當前結點標記為葉結點。預剪枝導致很多分支未展開,對後續劃分有影響,容易欠擬合。

3.2 後剪枝

生成一棵完整的決策樹,然後自底向上對非葉結點考察,若將該結點對應的子樹替換為葉結點能帶來泛化能力的提公升,則將該子樹替換為葉結點。後剪枝保留了更多分支,泛化能力更好,但是訓練時間開銷大。

連續值與缺失值

4.1 連續值處理

以上的內容都是針對離散屬性來說的,實際上會遇到連續值型別的屬性。對於連續屬性,可取值數目不再有限,需要採用離散化方法,最簡單的策略是二分法,選擇劃分點 t 將資料集分為在 a 屬性上值不大於 t 的樣本和大於 t 的樣本。事先先把屬性集合從小到大排序,t 的取值集合為:

根據資訊增益最大標準,選擇最優的 t 值,使劃分結果最好。

4.2 缺失值處理

缺失值指樣本的某些屬性值缺失。在劃分屬性時,針對某一屬性,對除去有缺失值樣本後剩餘的子集進行資訊增益計算,然後乘以無缺失值的樣本佔全部樣本的比例,得到全部樣本的集合的資訊增益。

多變數決策樹

決策樹中,每個屬性都可以看作乙個座標軸,d個屬性即對應d維空間,乙個樣本就對應空間中乙個點。決策樹的分類邊界是多幹個分段,每段對應乙個屬性取值,且都與乙個軸平行。這樣的話,模型容易變複雜。

多變數決策樹實現了劃分邊界,簡化了模型。非葉結點不再是僅僅對應某個屬性,而是對屬性的線性組合測試,劃分最優屬性變為建立乙個合適的線性分類器。

決策樹分類方法在 庫 sklearn 中已經封裝好,可以直接使用。

機器學習(2) 決策樹

前言 決策樹是一種機器學習的方法。決策樹是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果。決策樹需要監管學習。監管學習就是給出一堆樣本,每個樣本都有一組屬性和乙個分類結果,也就是分類結果已知,那麼通過學習這些樣本得到的決策樹,這個決...

機器學習 2 決策樹

用年齡 收入 是否學生 信用度高低來判斷是否購買電腦為例子 資訊 如果待分類的事物可能劃分在多個類之中,則符號xi的資訊定義為 上例中,買電腦的概率為9 14,那麼yes的資訊為 同理,no的資訊為 資訊熵 即資訊期望值。公式如下 即 在決策樹id3演算法中,選擇使用資訊獲取量 informatio...

機器學習筆記 決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...