偽**
決策樹生成過程就是生成一顆最優的決策樹,一般從根節點開始生成,一步一步往下蔓延(遞迴的過程)。那麼選擇哪個屬性作為根節點呢?這就需要乙個判定標準了,說白了就是窮舉(無非就是那麼幾個屬性)。
既然是決策點(一般稱分支結點),隨著劃分的不斷進行, 我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別,即純度越來越高。
資訊熵 information entropy
度量樣本集合純度最常用的一種指標,該值越小則說明樣本集合純度越高,樣本集合d的資訊熵定義為:
資訊增益 information gain
為了選定哪個屬性作為劃分結點,可計算各屬性值對當前樣本集合(劃分的進行集合越來越小)進行劃分所獲得的資訊增益
一般而言,資訊增益越大,則意味著使用該屬性來進行劃分所獲得的純度提公升越大,因此我們可以用資訊增益來進行決策樹的劃分屬性選擇,即優先選擇資訊增益最大的屬性作為新的劃分結點。
缺點:資訊增益準則對可取值數目較多的屬性有所偏好
增益率 gain ratio
為了避免 資訊增益準則偏好於取值數目較多的屬性所帶來的不利影響, 可使用增益率來選擇最優劃分屬性,定義如下
注意需注意的是,增益率準則對可取值數目較少的屬性有所偏好,因此使用時並不是直接選擇最大增益率最大的屬性,而是:
現從候選劃分屬性中篩選出資訊增益高於平均水平的屬性,再從其中選擇增益率最高的。
基尼指數
也是一種選擇最優劃分結點的評價指標,不想寫了。。。
預剪枝 生成過程中決策是否剪枝
即劃分過程中根據以上資訊增益、增益率等準則選擇劃好了屬性劃分結點時,還有評估是否要接著劃分,即加入該劃分結點與否對分類精度的影響(驗證集上測試)。(劃分後的結果選擇樣本數目最多的類別)
根據精度來進行決策是否加入該劃分結點。
缺點:存在欠擬合風險
後剪枝 生成決策樹後從下至上、從左至右對劃分點進行剪枝
也是同樣的道理,根據剪枝前後的決策精度來判斷是否需要剪掉該決策點
缺點:後剪枝是在生成決策樹後進行的,並且需要自底向上地對樹中所有非葉結點進行逐一考察,訓練時間開銷大
總結 後剪枝決策樹欠擬合風險小,具有更好的泛化效能,但其訓練時間開銷要大得多。
決策樹筆記(西瓜書)
一棵決策樹包含乙個根節點,若干個葉節點,若干個內部節點。每個葉節點表示相對應的決策結果。決策樹的生成是乙個遞迴過程,每個節點會遇到三種情況 當前節點對應的資料集中只有一種類別資料,則無需再劃分 當前節點屬性集為空,或者資料的取值全部相同,則將當前節點設為葉節點,對應的類別為,資料中包含樣本量最多的類...
0523西瓜書 04決策樹
三 對抗過擬合的手段 剪枝處理 四 如何處理連續值 缺失值 如何選擇最優劃分屬性?我們希望決策樹分支節點所包含的樣本盡可能屬於同一類別,即結點的 純度 越來越高。資訊增益 結點劃分前後資訊熵的差值。資訊增益準則對可取值數目較多的屬性有所偏好,為減少這種偏好可能帶來的不利影響,因此採用增益率來選擇最優...
西瓜書讀書筆記(四) 決策樹
全部筆記的彙總貼 機器學習 西瓜書 讀書筆記彙總貼 可以先看看這個 統計學習方法讀書筆記 五 決策樹 決策樹 decision tree 是一類常見的機器學習方法。連續值 採用二分法對連續的屬性進行處理,這也是c4.5決策樹演算法採用的機制。缺失值 通過計算資訊增益,讓同一樣本以不同的概率劃入到不同...