周志華 機器學習 第四章(決策樹) 筆記 習題答案

2021-09-27 09:47:20 字數 1008 閱讀 5987

1.基本流程

2.劃分選擇

資訊增益

假定當前樣本集合d中第k類樣本所佔的比例為 pk (k = 1, 2,. . . , iyi) ,則d的資訊熵定義為

資訊增益為:

資訊增益準則對可取值數目較多的屬性有所偏好。

增益率為減少這種偏好可能帶來的不利影響,使用"增益率",表示式如下:

需注意的是,增益率準則對可取值數目較少的屬性有所偏好?因此 c4.5 演算法並不是直接選擇增益率最大的候選劃分屬性,而是使用了乙個啟發式: 先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的.

基尼指數

3.剪枝處理

決策樹剪枝的基本策略有"預剪枝" (prepruning) 和"後剪枝"(post"pruning) [quinlan, 1993]. 預剪枝是指在決策樹生成過程中,對每個結點在劃分前先進行估計,若當前結點的劃分不能帶來決策樹泛化效能提公升,則停止劃分並將當前結點標記為葉結點;後剪枝則是先從訓練集生成一棵完整的決策樹,然後自底向上地對非葉結點進行考察,若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提公升,則將該子樹替換為葉結點.

4.連續與缺失值

採用2分法(bi partition) 對連續屬性進行處理;

若樣本 在劃分屬性 上的取值未知,則將 同時劃入所有子結點;

機器學習 第四章 決策樹

決策樹原理介紹 決策樹 decision tree 是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。劃分選擇 決策樹學習的關鍵在於,在每個 節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點...

周志華 《機器學習》之 第四章(決策樹)概念總結

看完周老師的決策樹章節,首先從內容安排上採用了循序漸進的方式引入介紹決策樹這種分類演算法。書中從基本流程 劃分選擇 剪枝處理 連續與缺失值 多變數決策樹五個方面進行詳細介紹。看完之後我們如何理解決策樹呢?1 決策樹的概念 首先我們可以明確決策樹同其他機器學習演算法一樣,是一種解決分類問題的演算法。從...

《機器學習》第四章決策樹答案

1 證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為0 的決策樹 anser 1 假設不存在與訓練集一致的決策樹,那麼訓練集訓練得到的決策樹至少有乙個節點上存在無法劃分的多個資料 若節點上沒有衝突資料,那麼總是能夠將資料分開的 這與前提 不含衝突資料 矛...