數學概念:
我們在構造決策樹的時候,會基於純度來構建。而經典的 「不純度」的指標有三種,分別是資訊增益(id3 演算法)、資訊增益率(c4.5 演算法)以及基尼指數(cart 演算法)。
資訊增益:加入的某種特徵可以減少的資訊熵
計算公式,是父親節點的資訊熵減去所有子節點的資訊熵
1.id3:使用的分類標準是資訊增益
缺點: 中寫道:
對於連續型資料,id3原本是沒有處理能力的,只有通過離散化將連續性資料轉化成離散型資料再進行處理。可以直接採用等距離資料劃分的離散化方法。該方法先對資料進行排序,然後將連續型資料劃分為多個區間,並使每乙個區間的資料量基本相同
舉例:
q1:為什麼「對可取值數目較多的特徵有所偏好」?
2. c4.5
c4.5 演算法最大的特點是克服了 id3 對特徵數目的偏重這一缺點,引入資訊增益率來作為分類標準。
但是,增益率可能對取值較小的屬性有所偏好。因此,c4.5不是直接用增益率最大的作為劃分屬性,而是用啟發式:先從候選劃分屬性中找出【資訊增益】高於平均水平的屬性,再從中選擇【資訊增益率】最高的。
q2:為什麼可以 "克服了 id3 對特徵數目的偏重" 這一缺點?
更詳細可以參考:
特點:3. cart分類樹:基尼係數
機器學習之決策樹
在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...
機器學習之決策樹
決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...
機器學習之決策樹
簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...