決策樹筆記(西瓜書)

2021-10-06 12:42:35 字數 1159 閱讀 4471

一棵決策樹包含乙個根節點,若干個葉節點,若干個內部節點。每個葉節點表示相對應的決策結果。

決策樹的生成是乙個遞迴過程,每個節點會遇到三種情況:

當前節點對應的資料集中只有一種類別資料,則無需再劃分;

當前節點屬性集為空,或者資料的取值全部相同,則將當前節點設為葉節點,對應的類別為,資料中包含樣本量最多的類別,即哪個類別的樣本量最多,葉節點對應的類別就是它;

當前節點已經不包含任何樣本,則當前節點同樣設為葉節點,對應的類別為,父節點中包含類別數最多的類別。

決策樹的關鍵在於如何選擇屬性進行劃分,我們希望隨著決策樹的不斷劃分,每個分支所包含的樣本盡可能的屬於同一類別,即純度越來越高。

資訊增益(id3, iteration dichotomiser ,迭代二分器演算法): 資訊增益越大,純度越高 對當前節點的中包含的每個屬性計算資訊增益,選擇最大的進行劃分; 資訊增益對可取值數目較多的屬性有所偏好。

優點:理論清晰、方法簡單,學習能力較強;

缺點:

增益率(c4.5 決策樹演算法): 增益率準則對可取值數目較少的屬性有所偏好,並不是直接選擇增益率最大的作為劃分屬性,先從劃分屬性中找出資訊增益高於平均水平的屬性,在選擇增益率最高的,以達到平衡。克服了資訊增益只能處理離散資料

基尼指數(cart, classification and regression tree,分類回歸樹) :基尼指數反應了從資料集中,隨機抽出兩個樣本,其類別標記不一致的概率。所以基尼指數越小,表明該資料集純度越高。另一種思路,基尼指數是為了最小化誤分類的概率;

降低過擬合

預剪枝:在劃分之前,估計當前節點劃分以後對效能有無提公升,有就繼續劃分,沒有則停止劃分

後剪枝:對非葉節點進行考察,假設將當前節點對應的子樹整個替換成葉節點,對效能是否有提公升;

對連續屬性值進行排序,選擇某個值t 進行劃分,而 t 依次取一系列值中相鄰兩個值的平均值,選擇使得資訊增益最大的那個屬性值作為劃分值。

**自機器學習面試乾貨精講)

既然兩個都可以表示不純度,不確定性,兩者之間有什麼區別?

西瓜書 決策樹

偽 決策樹生成過程就是生成一顆最優的決策樹,一般從根節點開始生成,一步一步往下蔓延 遞迴的過程 那麼選擇哪個屬性作為根節點呢?這就需要乙個判定標準了,說白了就是窮舉 無非就是那麼幾個屬性 既然是決策點 一般稱分支結點 隨著劃分的不斷進行,我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即純度...

0523西瓜書 04決策樹

三 對抗過擬合的手段 剪枝處理 四 如何處理連續值 缺失值 如何選擇最優劃分屬性?我們希望決策樹分支節點所包含的樣本盡可能屬於同一類別,即結點的 純度 越來越高。資訊增益 結點劃分前後資訊熵的差值。資訊增益準則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,因此採用增益率來選擇最優...

西瓜書讀書筆記(四) 決策樹

全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 可以先看看這個 統計學習方法讀書筆記 五 決策樹 決策樹 decision tree 是一類常見的機器學習方法。連續值 採用二分法對連續的屬性進行處理,這也是c4.5決策樹演算法採用的機制。缺失值 通過計算資訊增益,讓同一樣本以不同的概率劃入到不同...