決策樹演算法
分類回歸樹(cart,classification and regression tree)
id3演算法
c4.5演算法
chi-squared automatic interaction detector (chaid). 在生成樹的過程中用多層**.[7]
mars:可以更好的處理數值型資料。
使用決策樹作為**模型來**樣本的類標。這種決策樹也稱作分類樹或回歸樹。
資料以如下方式表示:
其中y是目標值,向量x由這些屬性構成, x1, x2, x3 等等,用來得到目標值。
1、來自周志華《機器學習》第4章
決策樹基於資訊熵進行劃分,書上劃分的原則是:選擇劃分以後資訊增益最大的屬性進行劃分,資訊增益的計算方式可以描述為:
$d - \sum_^jd_i * \frac$
其中,資訊熵越小越好,資訊增益越大越好。根據資訊增益的公式可以得出,同一樣本的dd 是一樣的,所以 $- \sum_^jd_i * \frac$ 越小,結果越好。因此我偷了個懶,通過最小化$- \sum_^jd_i * \frac$ 來達到最大化資訊增益的作用。其中,didi表示按照當前屬性劃分後,第 ii 類的資訊熵,cici 表示第 ii 類的樣本數量,cc 表示樣本總數量。例如,需要計算西瓜資料集根據「花紋」這一屬性的劃分結果,而「花紋」屬性有清晰、稍糊、模糊3個類別,則資訊增益是劃分前的資訊熵減去劃分後三個子類別資訊熵的加權平均值。
資訊熵的計算方式可以描述為:劃分後某一分支中,正樣本和負樣本所佔比的加權之和:
$-\sum_^j p_i * log_2p_i$
演算法核心流程:
s1】 樣本中所有的節點型別相同s2】 所有節點屬性相同
s3】 找到最佳劃分屬性
s4】 遞迴建立子樹
機器學習之決策樹
在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...
機器學習之決策樹
決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...
機器學習之決策樹
簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...