熟悉掌握決策樹的原理,
熟練掌握決策樹的生成方法與過程
anaconda
sklearn
pydotplus
決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個**目標變數的模型。
from sklearn import tree
x =[[0
,0],
[1,1
]]y =[0,
1]clf = tree.decisiontreeclassifier(
)clf = clf.fit(x, y)
clf.predict([[
2.,2
.]])
clf.predict_proba([[
2.,2
.]])
#計算屬於每個類的概率
要求根據要求隨機生成資料,並構建決策樹,並舉例**。
(1) 呼叫資料的方法如下:
from sklearn.datasets import load_iris
iris = load_iris(
)# 從sklearn 資料集中獲取鳶尾花資料。
(2) 利用sklearn中的決策樹方法對鳶尾花資料建立決策樹
(3) 為了能夠直**到建好的決策樹,安裝 pydotplus, 方法如下:
pip install pydotplus
pydotplus使用方法
import pydotplus #引入pydotplus
dot_data = tree.export_graphviz(clf, out_file=
none
) graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf(
"iris.pdf"
)#將圖寫成pdf檔案
1.課堂上決策樹的思路很好理解,但是實際操作的時候還是遇到了很多問題,通過對比資料構建了決策樹
2.借助視覺化工具可以更好的理解決策樹,但是graphviz實在是坑太多了
總結了兩種解決graphviz』s not found的途徑:
(1)新增io,直接指向graphviz的位址
(2)修改環境變數
3.不使用sklearn的**找到了部分教程,還在鑽研
資料探勘之決策樹
決策樹是乙個非引數的監督式學習方法,主要用於分類和回歸。演算法的目標是通過推斷資料特徵,學習決策規則從而建立乙個 目標變數的模型。利用anaconda sklearn生成決策樹並利用決策樹進行 利用pydotplus來顯示 from sklearn import tree x 0 0 1,1 y 0...
資料探勘 決策樹
分類是資料探勘的乙個非常重要的主題,現實中的很多問題都和分類密切相關。我們日常正是因為有了分類技巧,才能對不同的事物 場景採取不同的應對方式。資料分類可以看做是乙個兩步的過程。第一步是學習過程,我們根據所需要分析的問題和資料建立乙個分類器classifier。用我們選擇好的訓練元組對分類器進行訓練,...
資料探勘 決策樹
決策樹是以樹狀結構表示資料分類的結果 非葉子結點代表測試的條件。分支代表測試的結果 1.資訊熵 informationentropy 是度量樣本集合純度最常用的一種指標。2.基尼係數 gini 是度量樣本集合不確定性指標。基尼指數與熵可近似看做是統一概念,都是越大,確定性越差 基尼指數和資訊熵的影象...