資料探勘之決策樹

2021-09-21 00:28:00 字數 1962 閱讀 9984

決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個**目標變數的模型。

利用anaconda sklearn生成決策樹並利用決策樹進行**,利用pydotplus來顯示

from sklearn import tree

x =[[0

,0],

[1,1

]]y =[0,

1]clf = tree.decisiontreeclassifier(

)clf = clf.fit(x, y)

clf.predict([[

2.,2

.]])

clf.predict_proba([[

2.,2

.]])

#計算屬於每個類的概率

根據要求隨機生成資料,並構建決策樹,並舉例**。

from sklearn import tree

import numpy as np

a = np.random.randomstate(

)# 隨機數返回32行2列的矩陣 表示32組

x = a.rand(32,

2)# 從x這個32行2列的矩陣中 取出一行 判斷如果和小於1 給y賦值1 如果和不小於1 給y賦值0

# 作為輸入資料集的標籤(正確答案)

y =[

[int

(x0 + x1 <1)

]for

(x0, x1)

in x]

clf = tree.decisiontreeclassifier(

)clf = clf.fit(x, y)

clf.predict([[

2.,2

.]])

clf.predict_proba([[

2.,2

.]])

#計算屬於每個類的概率

from sklearn.datasets import load_iris

iris = load_iris(

)# 從sklearn 資料集中獲取鳶尾花資料。

x = iris.data

y = iris.target

clf = tree.decisiontreeclassifier(

)clf = clf.fit(x, y)

clf.predict([[

2.,2

.,3.

,2.]

])clf.predict_proba([[

2.,2

.,3.

,2.]

])#計算屬於每個類的概率

from sklearn.datasets import load_iris

iris = load_iris(

)# 從sklearn 資料集中獲取鳶尾花資料。

另外為了能夠直**到建好的決策樹,安裝 pydotplus
pip install pydotplus
pydotplus使用方法:

在**後面引入pydotplus

import pydotplus #引入pydotplus

dot_data = tree.export_graphviz(clf, out_file=

none

) graph = pydotplus.graph_from_dot_data(dot_data)

graph.write_pdf(

"iris.pdf"

)#將圖寫成pdf檔案

最後可生成pdf檔案

資料探勘之決策樹

熟悉掌握決策樹的原理,熟練掌握決策樹的生成方法與過程 anaconda sklearn pydotplus 決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。from sklearn import tree x 0 0 ...

資料探勘 決策樹

分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...

資料探勘 決策樹

決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...