基本的決策樹語法如下
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import decisiontreeclassifier
cancer=load_breast_cancer(
)x_train,x_test,y_train,y_test=train_test_split(
cancer.data,cancer.target,stratify=cancer.target,random_state=42)
tree=decisiontreeclassifier(random_state=0)
tree.fit(x_train,y_train)
倒數第二行,我們使用預設的決策樹建立型別,這樣會導致訓練集上絕對的吻合,模型出現嚴重的過擬合。
因此我們有必要了解decisiontreeclassifier函式的引數意義,以及針對不同型別的資料如何選擇。
決策樹引數
1 criterion 特徵選取標準。預設 gini。可選gini 基尼係數 或者entropy 資訊增益 1.1 選擇entropy,則是id3或c4.5演算法。id3演算法原理 a 計算訓練集所有樣本的資訊熵。b 計算每一特徵分類後的資訊增益。c 選擇資訊增益最大的特徵進行分類,得到子節點。d ...
決策樹 決策樹引數介紹(分類和回歸)
前面總結了資訊熵,資訊增益和基尼資訊的定義,以及決策樹三大演算法的原理及迭代過程,今天介紹下python中機器學習sklearn庫中決策樹的使用引數 決策樹既可以做分類,也可以做回歸,兩者引數大體相近,下面會先介紹分類,再對回歸不一樣的引數做單獨說明 1 criterion 特徵選取方法,可以是gi...
DecisionTree決策樹引數詳解
1.max depth 指定遍歷搜尋的最大深度。int or none,optional default none 一般來說,資料少或者特徵少的時候可以不管這個值。如果模型樣本量多,特徵也多的情況下,推薦限制這個最大深度,具體的取值取決於資料的分布。常用的可以取值10 100之間。常用來解決過擬合 ...