CART樹 python小樣例

2022-07-31 10:15:10 字數 750 閱讀 3738

決策樹不斷將資料切分成小資料集,直到所有目標變數完全相同,或者資料不能再切分為止,決策時是一種貪心演算法,它要在給定的時間內做出最佳選擇,但並不關心能否達到最優

樹回歸優點:可以對複雜和非線性的資料建模

缺點:結果不易理解

適用資料型別:數值型和標稱型資料

實現cart演算法和回歸樹,回歸樹和分類樹的思路類似,但葉節點的資料型別不是離散型,而是連續型

樹回歸的一般方法

(1)收集資料:採用任意方法收集資料。

(2)準備資料:需要數值型的資料,標稱型資料應該對映成二值型資料

(3)分析資料:繪出資料的二維視覺化顯示結果,以字典方式生成樹

(4)訓練演算法:大部分時間都花費在葉節點樹模型的構建上

(5)測試演算法:使用測試資料上的r2值來分析模型的效果

(6)使用演算法:使用訓練出的樹做**,**結果還可以用來做很多事情

cart演算法只做二元切分,所以這裡可以固定樹的資料結構。

建立樹的偽**:

找到最佳的待切分特徵:

如果該節點不能再分,將該節點存為葉節點

執行二元切分

在右子樹呼叫createtree()方法

在左子樹呼叫createtree()方法

catrt演算法可以用於構建二元樹並處理離散型或連續型資料的切分。若使用不同的誤差準則,就可以通過cart演算法構建模型樹和回歸樹。該演算法構建出的樹會傾向於對資料的過擬合。一顆擬合的樹常常十分複雜,剪枝技術的出現就是為了解決這個問題。兩種剪枝方法分別使預剪枝和後剪枝。

線性回歸 python小樣例

線性回歸 優點 結果易於理解,計算上不複雜 缺點 對非線性的資料擬合不好 適用資料型別 數值型和標稱型資料 horse 0.0015 annualsalary 0.99 hourslisteningtopulicradio 這就是所謂的回歸方程,其中的0.0015和 0.99稱作回歸係數,求這些回歸...

樹模型 CART樹

cart樹是後面所有模型的基礎,也是核心樹 在id3演算法中我們使用了資訊增益來選擇特徵,資訊增益大的優先選擇。在c4.5演算法中,採用了資訊增益比來選擇特徵,以減少資訊增益容易選擇特徵值多的特徵的問題。但是無論是id3還是c4.5,都是基於資訊理論的熵模型的,這裡面會涉及大量的對數運算。為了簡化模...

CART決策樹python實現

from sklearn import tree import pydotplus defcart skl test df pd.read csv dataset liquefaction data mle.csv x df csr vs y df target clf tree.decisiont...