一、決策樹基礎回顧
決策樹有三種演算法:id3,c4.5以及cart。id3用的是資訊增益準則,偏好於可取值數目較多的屬性。c4.5介於資訊增益準則和增益率準則之間,先從候選劃分屬性中找出資訊增益高於平均水平的屬性,然後從這些屬性中選擇增益率最大的,這樣在選擇結點時受屬性的取值數目影響較小。cart演算法則是和id3演算法異曲同工,只是衡量資料集的純度所用的方法不一樣,cart用基尼值來度量資料集的純度。
二、決策樹的剪枝處理
剪枝是決策樹學習演算法對付「過擬合」的主要手段。決策樹的剪枝的基本策略有「預剪枝」和「後剪枝。
預剪枝是自上而下,先找出最優屬性,若當前節點的劃分不能使決策樹的泛化效能得到提公升,則停止劃分。用「驗證集」的資料衡量泛化效能,若驗證集在該節點劃分前的精度(準確率)大於該節點劃分後的精度(準確率)則進剪掉該節點。有些分支當前的劃分不能提公升泛化效能,但是在後續的劃分中卻有可能使泛化效能提公升,因此預剪枝有欠擬合的風險。
後剪枝則是先從訓練集生成一顆完整的決策樹,然後自底向上比較結點劃分前後驗證集的精度,若該節點替換為葉節點後泛化能力提公升,則剪枝。後剪枝決策樹通常比預剪枝決策樹保留了更多的分支,一般情形下,欠擬合風險很小,但訓練時間開銷要比預剪枝大很多。
三、連續值與缺失值的處理
1、連續值
(1)把連續屬性離散化,然後再用決策樹的演算法。
2、缺失值的處理
某些樣本在某些屬性上有缺失值,根據某一劃分屬性計算資訊增益時先把該屬性上有缺失值的樣本拿出來,獲得資訊增益最大的屬性為結點,然後根據屬性各取值的概
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...
決策樹(二)決策樹回歸
回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...
決策樹01 決策樹的原理
此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...