決策樹的主要思想,就是不斷在當前分類狀態下尋找對於分類貢獻度最大的特徵,依據該特徵,再將訓練樣本在現在的分類基礎上進一步分類,將每一類依據是否含有特徵,分為兩類。
其分類步驟如下:
step1:將所有訓練樣本視為一類
step2:計算所有特徵的資訊增益,挑選出資訊增益最大的特徵,即對於分類貢獻度最大的特徵
step3:將訓練樣本按照是否含有該特徵,在當前分類狀態下進一步細分,得到2*ni個類,ni為當前狀態下類的個數。
step4:判斷是否滿足演算法終止條件,若是,則當前決策樹為所求,否則,執行step2。
關於資訊增益的計算:
由於只是想大致了解一下決策樹的思想,對於是否有其他計算方式我沒有去深究,只列出下面這個資訊增益的計算方式,有助於自己對於決策樹整個執行流程的理解。下表為訓練樣本集舉例:
id擁有房產(是/否)
婚姻情況(單身,已婚,離婚)
年收入(單位:千元)
無法償還債務(是/否)1是
單身125否2
否已婚100否3否
單身70否4
是已婚120否5否
離婚95是6
否已婚60否
7是離婚220否8
否單身85是
9否已婚75否10
否單身90是
如果記錄被分為n類,每一類的比例p(i)=第i類的數目/總數目。以上表所示訓練樣本為例,10個資料中可以償還債務的記錄比例為p(1) = 7/10 = 0.7,無法償還的為p(2) = 3/10 = 0.3,n = 2。
資訊增益為當前分類狀態的不純度值-基於特徵進行分類後的不純度值,即純度差。
而對於不純度的計算,有三種方式:
1、gini不純度
2、熵3、錯誤率
以上即是我對決策樹的總結,在資訊增益計算部分,我引用了中的內容,感謝該部落格作者
決策樹和CART決策樹
首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...
決策樹(二)決策樹回歸
回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...
決策樹01 決策樹的原理
此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...