ML 決策樹學習演算法

2021-09-22 20:12:49 字數 397 閱讀 3409

(1)資料如何分割

**屬性的資料型別分為離散型和連續性兩種情況,對於離散型的資料,按照屬性值進行**,每個屬性值對應乙個**節點;對於連續性屬性,一般性的做法是對資料按照該屬性進行排序,再將資料分成若干區間,如[0,10]、[10,20]、[20,30]…,乙個區間對應乙個節點,若資料的屬性值落入某一區間則該資料就屬於其對應的節點。

(2)如何選擇**的屬性

(3)什麼時候停止**

(4)決策樹的構建方法

剪枝策略

連續值和缺失值的處理

常見決策樹演算法(id3、c4.5、cart)

原理及**實現:

原理分析:

ML 決策樹學習小結

預設值處理 解決兩個問題。訓練資料預設 屬性缺失的劃分屬性 測試資料預設 屬性缺失的樣本劃分。對於訓練資料屬性值缺失,可以對未缺失資料求解資訊熵進一步參與最優屬性的篩選 對於測試資料屬性缺失,則賦權處理,即放入所有分類,帶權參與後續運算。離散化處理 連續資料離散化,c4.5演算法中採用的二分法,使用...

ML筆記 決策樹

十分有幸可以參加datawhale組隊學習活動,希望可以與datawhale的小夥伴們共同學習,共同進步。決策樹是一種常見的分類模型,在金融分控 醫療輔助診斷等諸多行業具有較為廣泛的應用。決策樹的核心思想是基於樹結構對資料進行劃分,這種思想是人類處理問題時的本能方法。例如在婚戀市場中,女方通常會先看...

ML筆記 決策樹剪枝

無論是分類樹還是回歸樹,剪枝過程很重要,剪枝處理不當或是沒有剪枝操作,決策樹模型都是失敗的,通過剪枝,可以大大提高模型準確度,避免決策樹的過擬合。決策樹生成演算法遞迴地生成決策樹,直到不能繼續下去為止,產生的樹對於訓練集會有很好的模型準確率,但是對於未知的測試資料分類卻沒有那麼準確,因此,對書的剪枝...