決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個**目標變數的模型。
利用anaconda sklearn生成決策樹並利用決策樹進行**,利用pydotplus來顯示
from sklearn import tree
x =[[0
,0],
[1,1
]]y =[0,
1]clf = tree.decisiontreeclassifier(
)clf = clf.fit(x, y)
clf.predict([[
2.,2
.]])
clf.predict_proba([[
2.,2
.]])
#計算屬於每個類的概率
根據要求隨機生成資料,並構建決策樹,並舉例**。
from sklearn import tree
import numpy as np
a = np.random.randomstate(
)# 隨機數返回32行2列的矩陣 表示32組
x = a.rand(32,
2)# 從x這個32行2列的矩陣中 取出一行 判斷如果和小於1 給y賦值1 如果和不小於1 給y賦值0
# 作為輸入資料集的標籤(正確答案)
y =[
[int
(x0 + x1 <1)
]for
(x0, x1)
in x]
clf = tree.decisiontreeclassifier(
)clf = clf.fit(x, y)
clf.predict([[
2.,2
.]])
clf.predict_proba([[
2.,2
.]])
#計算屬於每個類的概率
from sklearn.datasets import load_iris
iris = load_iris(
)# 從sklearn 資料集中獲取鳶尾花資料。
x = iris.data
y = iris.target
clf = tree.decisiontreeclassifier(
)clf = clf.fit(x, y)
clf.predict([[
2.,2
.,3.
,2.]
])clf.predict_proba([[
2.,2
.,3.
,2.]
])#計算屬於每個類的概率
from sklearn.datasets import load_iris
iris = load_iris(
)# 從sklearn 資料集中獲取鳶尾花資料。
另外為了能夠直**到建好的決策樹,安裝 pydotpluspip install pydotplus
pydotplus使用方法:
在**後面引入pydotplus
import pydotplus #引入pydotplus
dot_data = tree.export_graphviz(clf, out_file=
none
) graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf(
"iris.pdf"
)#將圖寫成pdf檔案
最後可生成pdf檔案
資料探勘之決策樹
熟悉掌握決策樹的原理,熟練掌握決策樹的生成方法與過程 anaconda sklearn pydotplus 決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。from sklearn import tree x 0 0 ...
資料探勘 決策樹
分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...
資料探勘 決策樹
決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...