資訊增益比是什麼?
特徵的選擇
決策樹的構建原理?
決策樹的減枝
離散化處理
不完整資料處理
樹形結構為什麼不需要歸一化?
永遠要記得,成功的決心遠勝於任何東西。
在對訓練資料集分類時,究竟選擇哪個特徵更好?這就要求確定選擇特徵的準則。直觀上如果乙個特徵具有更好的分類能力,或者說,按照這一特徵將訓練資料集分割成子集,使得各個子集在當前條件下有最好的分類,那麼就選擇這個特徵。
資訊增益是什麼?
資訊增益演算法:
資訊增益值的大小是相對訓練資料集而驗的,並且沒有絕對意義。如果如果某個特徵所有的取值都不相同(id),那麼根據這個特徵對資料集劃分使得條件熵為0,但是這個特徵並不是最優特徵。為消除這種影響引入了特徵的內部資訊
以資訊增益作為劃分訓練資料集的特徵,存在偏向於選擇值較多的特徵的問題,使用資訊增益比可以對這一問題進行校正,這是特徵選擇的另一準則inf
o(d,
a)=−
∑i=1
n∣di
∣∣d∣
log∣d
i∣∣d
∣info(d,a)= - \sum_^n \frac \log \frac
info(d
,a)=
−i=1
∑n∣
d∣∣d
i∣
log∣d∣
∣di
∣很明顯,a的取值越多,內部資訊越大,加入這個懲罰項可以得出資訊增益比的公式 gr(
d,a)
=g(d
,a)i
nfo(
d,a)
g_r(d,a) = \frac
gr(d,
a)=i
nfo(
d,a)
g(d,
a)首先要考慮哪個變數是樹根,哪個是樹節點,為此,我們需要考慮變數的重要性。
不同的方法形成不同的決策樹,決策樹方法會把每個特徵都試一遍,最後選取能夠使分類分的最好的特徵(e.g. 將a屬性作為父節點,產生的純度增益(gaina)要大於b屬性作為父節點,則a作為優先選取的屬性)。
id3演算法
c4.5演算法
cart演算法
決策樹的生成
遞迴地構建二叉決策樹的過程。對回歸樹用平方誤差最小化準則,對分類樹用基尼指數最小化準則,進行特徵選擇,生成二叉樹。
構建決策樹是過多的考慮如何提高對訓練資料的正確分類,從而構建出過於複雜的決策樹,導致對未知的測試資料的分類沒有那麼準確,因此需要對決策樹進行簡化。
決策樹的剪枝基本策略有 預剪枝 (pre-pruning) 和 後剪枝 (post-pruning)。
決策樹的損失函式:ca(
t)=∑
t=1∣
t∣nt
ht(t
)+a∣
t∣
c_a(t) = \sum_^ n_th_t(t) +a|t|
ca(t)
=t=1
∑∣t∣
nt
ht(
t)+a
∣t∣t為樹t的葉結點,該結點有n
t% n_t
nt個樣本點,ht(
t)
% h_t(t)
ht(t)
為葉結點t的經驗熵。∣t∣
% |t|
∣t∣為樹t
% tt葉結點的數量。
∣ t∣
% |t|
∣t∣可以表示樹的複雜度
當a=0時不考慮樹的複雜度s
當a 無窮大時不考慮與訓練資料的擬合度
剪枝演算法:
輸入:樹t,引數a
輸出:修建後的樹t
a% t_a
ta將連續型的屬性變數進行離散化處理形成決策樹的訓練集:
機器學習之決策樹
在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...
機器學習之決策樹
決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...
機器學習之決策樹
簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...