公式機器學習
決策樹2.經驗熵h(d)
3.條件熵
4.資訊增益
5.資訊增益比
gini係數
outlook
temperature
humidity
windy
play
sunny
hothigh
false
nosunny
hot
high
true
noovercast
hot
high
false
yesrainy
mild
high
false
yesrainy
cool
normal
false
yesrainy
cool
normal
true
noovercast
cool
normal
true
yessunny
mild
high
false
nosunny
cool
normal
false
yesrainy
mild
normal
false
yessunny
mild
normal
true
yesovercast
mild
high
true
yesovercast
hot
normal
false
yesrainy
mild
high
true
noplay的熵:
outlook的資訊熵:
資訊增溢gain(outlook)=0.940-0.693=0.247
同樣計算出gain(temperature)=0.029
gain(humidity)=0.152
gain(windy)=0.048
gain(outlook)最大(資訊熵下降最快),所以決策樹根節點擊outlook
為了計算熵,我們需要計算所有類別所有可能值所包含的資訊期望值,p(xi)是選擇該分類的概率:
其中,n為分類數目,熵越大,隨機變數的不確定性就越大。
設有k個類ck,k = 1,2,3,···,k,|ck|為屬於類ck的樣本個數,這經驗熵公式可以寫為:
outlook特徵的熵
條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性,隨機變數x給定的條件下隨機變數y的條件熵(conditional entropy) h(y|x),定義x給定條件下y的條件概率分布的熵對x的數學期望:
其中,pi = p(x=xi)
資訊增益是相對於特徵而言的。所以,特徵a對訓練資料集d的資訊增益g(d,a),定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即:
特徵a對訓練資料集d的資訊增益比gr(d,a)定義為其資訊增益g(d,a)與訓練資料集d的經驗熵之比:
決策樹 公式推導
目錄決策樹中涉及到了資訊熵 資訊增益 資訊增益率 基尼係數等公式,作為相應演算法 id3 c4.5 cart樹 的衡量標準,今天就來稍微推導一下這些公式 已知集合d的資訊熵的定義為 operatorname d sum p log p 其中,mathcal 表示樣本類別總數,p k 表示第k類樣本所...
梯度提公升決策樹公式推導
梯度提公升演算法使用損失函式的負梯度在當前模型的值,不再去學習殘差,而是學習乙個損失函式關於梯度的負值。begin begin left frac right x end end 作為回歸問題提公升決策樹演算法中殘差的近似值,擬合乙個回歸樹。如果xgboost在這裡改進的話可以採用二階梯度,因為乙個...
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...