常見的決策樹

2021-10-25 02:35:01 字數 465 閱讀 5285

閱讀李航《統計學習方法》第五章 決策樹筆記

id3邏輯

核心模組:最優特徵選擇,結果判斷

輸入資料集,計算每個特徵的資訊增益(熵-條件熵),比較資訊增益最大值與epsilon,

c4.5

上面流程的資訊增益換成資訊增益比即可,**改個函式就好了,其他邏輯不變

cart

資料集輸入

因為cart是二叉樹,首先把特徵組裝成新特徵,例如年齡(青年,中年,老年),組裝完以後乙個年齡特徵變成三個:(年齡,青年)、(年齡,中年)、(年齡,老年)。如果特徵裡只有兩個值,組裝完後還是乙個特徵,與onehot不同。

計算新特徵的gini指數(根據左子樹分布與右子樹分布計算),比較資料集labels的gini與最小gini的差值,如果小於epsilon,則不做分叉,決策為子集眾數。如果大於epsilon,取最小gini特徵為父結點,做分叉。分叉處理後形成多個子集,繼續做迴圈,直至整個資料集迴圈結束。

決策樹01 決策樹的原理

此筆記根據 machine learning in action 和周志華教授的 機器學習 所作。缺點 可能會產生過度匹配問題。適用資料型別 數值型和標稱型 machine learning in action if so return 類標籤 else 尋找劃分資料集的最好特徵 劃分資料集 建立分...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹(二)決策樹回歸

回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...