分類學習 決策樹

2021-08-14 22:09:25 字數 1448 閱讀 8637

#鐵達尼號沉船事故

#鐵達尼號乘客資料查驗

import pandas as pd #匯入pandas用於資料分析

titanic = pd.read_csv('')

titanic.head() #觀察前幾行資料

titanic.info() #檢視資料的統計特徵

#特徵選取,機器學習很重要的乙個環節

x = titanic[['pclass', 'age', '***']] #這三個特徵可能決定是否能夠倖免

y = titanic['survived']

x['age'].fillna(x['age'].mean, inplace = true) #將age特徵缺失行用平均值補充

#資料分割

from sklearn.cross_validation import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.25, random_state = 33)

#特徵轉換器轉換特徵

from sklearn.feature_extraction import dictvectorizer

vec = dictvectorizer(sparse=false)

x_train = vec.fit_transform(x_train.to_dict(orient = 'record')) #將類別型的特徵都單獨剝離出來

x_test = vec.transform(x_test.to_dict(orient = 'record'))

#決策樹分類器

from sklearn.tree import decisiontreeclassifier

dtc = decisiontreeclassifier() #初始化分類器

dtc.fit(x_train, y_train) #訓練分類器

y_predict = dtc.predict(x_test) #用訓練好的模型進行**

#效能分析

from sklearn.metrics import classification_report

print('accuracy of decisiontree is :',dtc.score(x_test, y_test))

print(classification_report(y_predict, y_test, target_names=['died', 'suevived']))

結果:

決策樹分類

一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...

分類決策樹

決策樹是基於特徵對例項進行分類的樹形結構。決策樹學習演算法包括 特徵選擇 樹的生成和樹的剪枝。2.1.id3 1 針對當前的集合,計算每個特徵的資訊增益 2 選擇資訊增益最大的特徵作為當前節點的決策決策特徵 3 根據特徵不同的類別劃分到不同的子節點 比如年齡特徵有青年,中年,老年,則劃分到3顆子樹 ...

分類決策樹

決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...