決策樹之鳶尾花卉例項解析 1
、介紹
以sklearn
資料集中的鳶尾花卉
iris
資料集為例,解析決策樹。
鳶尾花卉
iris
資料集中有
150個樣本(示例),
4個特徵(屬性),
1個標籤(類別變數)。以此
150個樣本為訓練樣本得到相應的決策樹。
首先,明確一下資料集中的內容。
通過以下**可以檢視:
解說: ①
from sklearn.datasets import load_iris
,從sklearn
資料集模組匯出鳶尾花卉資料集。 ②
iris = load_iris() ③
print iris.data
,顯示鳶尾花卉資料集中的
4個特徵,結果顯示為
[[5.1 3.5 1.4 0.2]
[ 4.9 3. 1.4 0.2]
[ 4.7 3.2 1.3 0.2] …
[ 5.9 3. 5.1 1.8]] 是個
150行,
4列的乙個矩陣。 ④
print iris.target
顯示鳶尾花卉資料集中的標籤,結果顯示為
[0 0 0…2] 是個
1行,150列的乙個矩陣。 ⑤
print iris.feature_name,
顯示特徵向量
['sepal length (cm)', 'sepal width (cm)', 'petal length(cm)', 'petal width (cm)']
⑥print iris.target_names
顯示標籤名字,結果顯示為
['setosa''versicolor' 'virginica']
總結:
特徵1 特徵
2 特徵3
特徵4
標籤 物理含義
花萼長度
花萼寬度
花瓣長度
花瓣寬度
鳶尾花種類
對應英文
sepallength
sepalwidth
petallength
petalwidth
class
儲存形式
float
float
float
float
int
鳶尾花種類可取值0、
1、2,分別代表山鳶尾
setosa
、變色鳶尾
versicolor
、維吉尼亞鳶尾
virginica。
2、訓練決策樹實現鳶尾花分類
decisiontreeclassifier:sklearn
機器學習包中,決策樹實現類是
decisiontreeclassifier
,實現對資料集的多類分類。輸入引數為兩個陣列
x_train
和y_train, x_train
為訓練資料,
y_train
為訓練資料的標籤,用於訓練分類器。
train_test_split:
將原始資料將其按一定比例隨機分為
x_train
和x_test
。x_test
為測試資料,用於測試分類器。好的做法是多次隨機劃分
x_train
和x_test
,根據y_test
的測試結果和本身固有結果比較來衡量分類器的好壞。這裡只以一次執行結果說明,且在
4個特徵中,以第乙個和最後乙個特徵進行分類圖示。
示例:
分類結果圖:
決策樹完成鳶尾花分類
實驗樓專案 決策樹是一種特殊的樹形結構,一般由節點和有向邊組成。其中,節點表示特徵 屬性或者乙個類。而有向邊包含有判斷條件。決策樹學習 decision tree learning 亦簡稱為決策樹。決策樹可以用來解決分類或回歸問題,分別稱之為分類樹或回歸樹。其中,分類樹的輸出是乙個標量,而回歸樹的一...
python決策樹 sklearn鳶尾花資料集分類
def decision iris 用決策樹進行鳶尾花分類 匯入資料 iris load iris 劃分資料 x train,x test,y train,y test train test split iris.data,iris.target,random state 6 決策樹預估器 esti...
決策樹演算法入門 鳶尾花資料集
話不多說,資料分析必備的三個包先導入 import numpy as np import pandas as pd import matplotlib.pyplot as plt 匯入機器學習演算法的決策樹模組,資料使用jupyter自帶的鳶尾花資料集 from sklearn import dat...