周志華 《機器學習》之 第四章(決策樹)概念總結

2021-07-16 16:50:15 字數 1275 閱讀 4897

看完周老師的決策樹章節,首先從內容安排上採用了循序漸進的方式引入介紹決策樹這種分類演算法。書中從基本流程、劃分選擇、剪枝處理、連續與缺失值、多變數決策樹五個方面進行詳細介紹。看完之後我們如何理解決策樹呢?

1、決策樹的概念:首先我們可以明確決策樹同其他機器學習演算法一樣,是一種解決分類問題的演算法。從名字上我們可以看出決策樹是一顆樹的儲存結構,圖顯示的話,這個演算法應該就是一顆數。在機器學習中,一顆決策樹包含乙個根結點、若干個內部結點和若干個葉結點;根結點和內部結點都對應於乙個屬性測試,葉結點則對應於決策結果;每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中;根結點包含樣本全集。從根結點到每個葉結點的路徑對應了乙個判定測試序列;因此,可以想象一次次劃分之後由根延伸出了許多分支,形象的說就是一棵樹。

從決策樹的概念中可以分析出,如何在每個內部結點處,屬性測試中如何選擇最優劃分屬性成為了構建決策樹的關鍵。

2、劃分選擇書中介紹三種方法,分別是資訊增益、增益率、基尼指數提到基本概念如下:

資訊熵:是度量樣本集合純度最常用的一種指標。資訊熵的值越小,則樣本集合的純度就越高。

資訊增益:資訊增益我們可以理解為在劃分樣本集前後引起的資訊熵的差異,一般而言,資訊增益越大,則意味著使用的劃分屬性對樣本集進行劃分獲得的「純度提公升」越大。

增益率:

基尼指數:

3、剪枝處理主要講述預剪枝和後剪枝

剪枝處理是決策樹學習演算法對付「過擬合」的主要手段。在決策樹學習中,為了盡可能正確分類訓練樣本,結點劃分過程將不斷重複,有時會造成決策樹分支過多,這時就可能因訓練樣本學得「太好」了,以致於把訓練集自身的一些特點當做所有資料都具有的一般性質而導致過擬合。因此,可以通過主動去掉一些分支來降低過擬合的風險。

預剪枝:

後剪枝:

注:預剪枝基於「貪心」本質禁止這些分支展開,給預剪枝決策樹帶來了欠擬合的風險;後剪枝決策樹的欠擬合風險很小,泛化效能往往優於預剪枝決策樹。但後剪枝過程是在生產完全決策樹之後進行的,並且要自底向上的對樹中的所有非葉結點進行逐一考察,因此其訓練時間開銷比未剪枝決策樹和預剪枝決策樹都要大很多。

4、連續與缺失值本小結主要是對資料連續時以及缺失資料時的情況下如何處理構建決策樹

連續屬性離散化技術

遇到不完整樣本,即樣本的某些屬性值缺失。引入p

表示無缺失值樣本所佔比例。

5、多變數決策樹

課後習題

機器學習 第四章 決策樹

決策樹原理介紹 決策樹 decision tree 是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。劃分選擇 決策樹學習的關鍵在於,在每個 節點處如何選擇最優劃分屬性。一般而言,隨著劃分過程不斷進行,我們希望決策樹的分支節點所包含的樣本盡可能屬於同一類別,即節點...

周志華 機器學習 第四章(決策樹) 筆記 習題答案

1.基本流程 2.劃分選擇 資訊增益 假定當前樣本集合d中第k類樣本所佔的比例為 pk k 1,2,iyi 則d的資訊熵定義為 資訊增益為 資訊增益準則對可取值數目較多的屬性有所偏好。增益率為減少這種偏好可能帶來的不利影響,使用 增益率 表示式如下 需注意的是,增益率準則對可取值數目較少的屬性有所偏...

《機器學習》第四章決策樹答案

1 證明對於不含衝突資料 即特徵向量完全相同但標記不同 的訓練集,必存在與訓練集一致 即訓練誤差為0 的決策樹 anser 1 假設不存在與訓練集一致的決策樹,那麼訓練集訓練得到的決策樹至少有乙個節點上存在無法劃分的多個資料 若節點上沒有衝突資料,那麼總是能夠將資料分開的 這與前提 不含衝突資料 矛...