回歸樹重要介面
交叉驗證
1:如何確定最佳節點和最佳分支
2:決策數什麼時候停止生長(防止過擬合)
from sklearn import tree #匯入需要的模組
clf = tree.decisiontreeclassifier(
)#例項化
clf = clf.fit(x_train,y_train)
#訓練集資料訓練模型
result = clf.score(x_train,y_train)
#匯入測試積,獲取需要的資訊
class
sklearn
.tree.decisiontreeclassifier (criterion=』gini』, splitter=』best』, max_depth=
none
, min_samples_split=
2, min_samples_leaf=
1, min_weight_fraction_leaf=
0.0, max_features=
none
, random_state=
none
, max_leaf_nodes=
none
, min_impurity_decrease=
0.0, min_impurity_split=
none
, class_weight=
none
, presort=
false
)# 重要引數
criterion //標準:用來決定「不純度」的計算方式
1)entropy(資訊熵):更加敏感,欠擬合的時候用資訊熵
2)gini(基尼係數):適用於高維資料和噪音很多的資料
****
****
**不純度:衡量最佳節點和最佳分支的標準,不純度越低越好,子節點不純度一定小於父節點。
====
====
====
====
====
==隨機引數==
====
====
====
====
====
=random_state //消除隨機性
1)隨便指定乙個數
splitter //消除隨機性,同時調整過擬合
1)best 預設
2)random 隨機,更加敏感
====
====
====
====
====
====
====
====
====
====
====
*****==
====
====
====
====
====
=剪枝引數==
====
====
====
====
*****==
max_depth //設定最大層數
min_samples_leaf //任意子節點得最小樣本量
min_samples_split //任意父節點得最小樣本量
max_features //設定最多使用的特徵數
min_impurity_decrease //設定資訊增益的大小,當資訊增益小於這個限定值時,停止分支
資訊增益:父節點資訊熵-子節點資訊熵
====
====
====
====
====
====
====
====
====
====
====
====
====
====
====
====
====
====
===標籤權重引數:對樣本標籤進行均衡==
====
====
====
class_weight
class_weight_fraction_leaf
clf.fit(
)//訓練介面
clf.score(
)//評價介面,返回準確度accuracy
clf.()
clf.predict(
)//**介面
criterion //標準。mse或者mae。
fit(
)//返回r^
2 不是mse
決策樹(二)決策樹回歸
回歸 決策樹也可以用於執行回歸任務。我們首先用sk learn的decisiontreeregressor類構造一顆回歸決策樹,並在乙個帶雜訊的二次方資料集上進行訓練,指定max depth 2 import numpy as np quadratic training set noise np.r...
回歸決策樹
決策樹是處理分類的常用演算法,但它也可以用來處理回歸問題,其關鍵在於選擇最佳分割點,基本思路是 遍歷所有資料,嘗試每個資料作為分割點,並計算此時左右兩側的資料的離差平方和,並從中找到最小值,然後找到離差平方和最小時對應的資料,它就是最佳分割點。sklearn.tree.decisiontreereg...
決策樹 回歸
決策樹常用於分類問題,但是也能解決回歸問題。在回歸問題中,決策樹只能使用cart決策樹,而cart決策樹,既可以分類,也可以回歸。所以我們說的回歸樹就是指cart樹。為什麼只能是cart樹 1.回想下id3,後需要計算每個類別佔總樣本的比例,回歸哪來的類別,c4.5也一樣 2.回歸問題肯定是連續屬性...