統計學習方法 第五章

2021-07-27 12:52:50 字數 433 閱讀 7929

資訊增益比

說完了資訊增益,來說一下資訊增益這種演算法的缺點,以資訊增益為準則在選擇特徵時,傾向於選擇取值較多的特徵作為最優特徵。因為資訊增益的目的是使得選擇這個特徵作為根節點之後,接下來的決策樹會越小越好也就是越容易分類。如果這個特徵的取值比較多,會使下一層比較寬佔據較多樣本,那自然再次遞迴時會更快的分類。取乙個極端的例子來講,省份證id是乙個人的特徵,如果把身份證作為跟節點,那一下就把人這個龐大的資料集給分開了,因為根節點下一層的都是葉節點了,但顯然這是沒有意義的。解決這個問題的辦法就是採用資訊增益比,資訊增益比的表示如下:

統計學習方法 課後習題第五章

5.1 根據表5.1所給的訓練資料集,利用資訊增益比 c4.5演算法 生成決策樹。注意這裡是用資訊增益比哦,from sklearn.tree import decisiontreeclassifier這裡預設是gini 首先計算資料集 d 的經驗熵 h d h d fraclog 2 frac f...

統計學習方法 第五章決策樹

描述對例項進行分類的樹型結構,決策樹由結點和有向邊組成,結點有兩種型別 內部結點 表示乙個特徵或屬性 和葉結點 乙個類 用決策樹分類,從根節點開始,對例項的某一特徵進行測試,根據測試結果,將例項分配到其子節點,這時,每乙個子節點對於著該特徵的乙個取值,如此遞迴地對例項進行測試並分配,直至達到葉節點,...

統計學習方法筆記 第五章 決策樹

決策樹是一種基本的分類與回歸的方法,這裡只討論其分類過程。分類決策樹模型由結點和有向邊組成,結點分為內部結點和葉結點,內部結點代表代表乙個特徵或屬性,葉結點代表分類結果。根節點包含著所有的屬性,從根節點開始,對例項通過某一特徵進行測試,根據測試結果將例項分配到其子節點,如此遞迴地生成一棵決策樹。最後...