決策樹 回歸樹

2021-10-20 19:56:12 字數 2608 閱讀 7027

回歸樹重要介面

交叉驗證

1:如何確定最佳節點和最佳分支

2:決策數什麼時候停止生長(防止過擬合)

from sklearn import tree   #匯入需要的模組

clf = tree.decisiontreeclassifier(

)#例項化

clf = clf.fit(x_train,y_train)

#訓練集資料訓練模型

result = clf.score(x_train,y_train)

#匯入測試積,獲取需要的資訊

class

sklearn

.tree.decisiontreeclassifier (criterion=』gini』, splitter=』best』, max_depth=

none

, min_samples_split=

2, min_samples_leaf=

1, min_weight_fraction_leaf=

0.0, max_features=

none

, random_state=

none

, max_leaf_nodes=

none

, min_impurity_decrease=

0.0, min_impurity_split=

none

, class_weight=

none

, presort=

false

)# 重要引數

criterion //標準:用來決定「不純度」的計算方式

1)entropy(資訊熵):更加敏感,欠擬合的時候用資訊熵

2)gini(基尼係數):適用於高維資料和噪音很多的資料

****

****

**不純度:衡量最佳節點和最佳分支的標準,不純度越低越好,子節點不純度一定小於父節點。

====

====

====

====

====

==隨機引數==

====

====

====

====

====

=random_state //消除隨機性

1)隨便指定乙個數

splitter //消除隨機性,同時調整過擬合

1)best 預設

2)random 隨機,更加敏感

====

====

====

====

====

====

====

====

====

====

====

*****==

====

====

====

====

====

=剪枝引數==

====

====

====

====

*****==

max_depth //設定最大層數

min_samples_leaf //任意子節點得最小樣本量

min_samples_split //任意父節點得最小樣本量

max_features //設定最多使用的特徵數

min_impurity_decrease //設定資訊增益的大小,當資訊增益小於這個限定值時,停止分支

資訊增益:父節點資訊熵-子節點資訊熵

====

====

====

====

====

====

====

====

====

====

====

====

====

====

====

====

====

====

===標籤權重引數:對樣本標籤進行均衡==

====

====

====

class_weight

class_weight_fraction_leaf

clf.fit(

)//訓練介面

clf.score(

)//評價介面,返回準確度accuracy

clf.()

clf.predict(

)//**介面

criterion  //標準。mse或者mae。
fit(

)//返回r^

2 不是mse

決策樹(二)決策樹回歸

回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...

回歸決策樹

決策樹是處理分類的常用演算法,但它也可以用來處理回歸問題,其關鍵在於選擇最佳分割點,基本思路是 遍歷所有資料,嘗試每個資料作為分割點,並計算此時左右兩側的資料的離差平方和,並從中找到最小值,然後找到離差平方和最小時對應的資料,它就是最佳分割點。sklearn.tree.decisiontreereg...

決策樹 回歸

決策樹常用於分類問題,但是也能解決回歸問題。在回歸問題中,決策樹只能使用cart決策樹,而cart決策樹,既可以分類,也可以回歸。所以我們說的回歸樹就是指cart樹。為什麼只能是cart樹 1.回想下id3,後需要計算每個類別佔總樣本的比例,回歸哪來的類別,c4.5也一樣 2.回歸問題肯定是連續屬性...