機器學習演算法組隊學習 決策樹

2021-10-23 17:26:17 字數 703 閱讀 7508

決策樹是一種常見得機器學習方法,一顆決策樹主要包含三個部分,乙個根節點、若干內部節點和若干葉節點

「資訊熵」是度量樣本幾何純度最常用得一種指標,定義為

考慮到不用得分支節點所包含得樣本數不同,給分支節點賦予權重,樣本數越多的分支節點影響力越大,於是可以得到「資訊增益」

一般而言,資訊增益越大,意味著用屬性a來劃分所獲得的收益越大。

為了避免模型過分偏要用去之多的屬性做劃分,引入增益率。增益率定義為

其中稱為屬性a的固有值,屬性a的可能取值數目越多,則iv(a)的值通常會大。

基尼指數是衡量樣本集純度的指標。基尼係數定義為

id3決策樹演算法是以資訊增益為準則來選擇劃分屬性,將資訊增益最大的屬性作為劃分屬性。

c4.5決策樹演算法不直接使用資訊增益,而是使用增益率來選擇最有劃分屬性。先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的。

cart決策樹演算法使用基尼指數來選擇劃分屬性,在後算屬性集合a中,算則那個是的劃分後基尼指數最小的屬性作為最有劃分屬性。

機器學習演算法 決策樹

決策樹類似一中策略或者條件選擇,其中各個節點代表選擇條件,各個葉子結點代表可能達到的結果,決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就...

機器學習演算法 決策樹

決策樹的使用主要是用於分類。年齡收入 信用是否學生 是否買電腦年輕高 高是是中年 低中否否 老年中低否 是對於一些適合分類的資料中,考慮各種因素對結果的影響大小進行決策,一般是先選取區分度較高的因素。比如說,年齡大小這個因素在很大程度上影響我們的結果 是否買電腦。那麼,年齡因素將作為第乙個決策因素出...

機器學習演算法 決策樹

1 決策樹直觀理解 假設,已知10人房產 婚姻 年收入以及能否償還債務的樣本,那麼第11個人來,知其房產 婚姻 以及年收入情況,問他是否能償還債務?2 前置知識 理解決策樹,我們必須知道一下概念 資訊熵 描述系統的不確定度,熵越高,代表系統越混亂,包含的資訊量也就越多,其公式 例 計算前10個樣本能...