讓所有節點求平均值。
簡介:
熵用於衡量不確定性,所以均分的時候熵最大
kl散度用於度量兩個分布的不相似性,kl(p||q)等於交叉熵h(p,q)-熵h(p)。交叉熵可以看成是用q編碼p所需的bit數,減去p本身需要的bit數,kl散度相當於用q編碼p需要的額外bits。
互動資訊mutual information :i(x,y) = h(x)-h(x|y) = h(y)-h(y|x) 表示觀察到x後,y的熵會減少多少
具體計算公式參考【這裡】
資訊增益的大小是相對訓練資料而言的,沒有絕對的意義。
在分類困難時,也就是說在訓練資料集的經驗熵大的時候,資訊增益值會偏大,反之則偏小。
使用資訊增益比可以矯正這一缺點。
分別利用資訊增益、資訊增益率、gini指數作為資料分割標準。
資訊增益衡量按照某個特徵分割前後熵的減少程度,其實就是上面說的互動資訊。李航書中的公式:
用上述資訊增益會出現優先選擇具有較多屬性的特徵,畢竟分的越細的屬性確定性越高。所以提出了資訊增益率的概念,讓含有較多屬性的特徵的作用降低。
cart樹在分類過程中使用的基尼指數gini,只能用於切分二叉樹,而且和id3、c4.5樹不同,cart樹不會在每乙個步驟刪除所用特徵。
剪枝可防止過擬合;
剪枝分為前剪枝和後剪枝,前剪枝本質就是早停止,後剪枝通常是通過衡量剪枝後損失函式變化來決定是否剪枝。
後剪枝有:錯誤率降低剪枝、悲觀剪枝、代價複雜度剪枝
決策樹的剪枝是通過極小化決策樹的損失函式來實現的。
設樹葉節點個數為t個,t是樹的某個葉節點,該葉節點上有nt
' role="presentation">ntn
t個樣本,其中k類別的樣本點有nt
k' role="presentation">ntk
ntk個,
ht(t
)' role="presentation">ht(
t)ht
(t)為葉節點t上的經驗熵,則決策樹的損失函式為cα
(t)=
∑t=1
tnth
t(t)
+αt' role="presentation">cα(
t)=∑
t=1t
ntht
(t)+
αtcα
(t)=
∑t=1
tnth
t(t)
+αt經驗熵ht
(t)=
−∑kn
tknt
logn
tknt
' role="presentation">ht(
t)=−
∑knt
kntl
ognt
knth
t(t)
=−∑k
ntkn
tlog
ntkn
t令c(
t)=∑
t=1t
ntht
(t)=
∑t=1
t∑k=
1knt
klog
ntkn
t' role="presentation">c(t
)=∑t
=1tn
tht(
t)=∑
t=1t
∑k=1
kntk
logn
tknt
c(t)
=∑t=
1tnt
ht(t
)=∑t
=1t∑
k=1k
ntkl
ognt
knt剪枝就是當
α' role="presentation">α
α確定時,選擇損失函式最小的模型。
剪枝流程:
輸入:生成演算法產生的這個樹t,引數
α' role="presentation">αα
輸出:修剪後的樹
(1)計算每個節點的經驗熵
(2)遞迴地從樹的葉節點向上回溯,直到不能繼續為止,返回損失最小的樹。
節點中樣本為同一類;
特徵不足返回多類;
如果某個分支沒有值則返回父節點中的多類;
樣本個數小於閾值返回多類。
機器學習 決策樹
一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...
機器學習 決策樹
我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...
機器學習 決策樹
一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...