#鐵達尼號沉船事故
#鐵達尼號乘客資料查驗
import pandas as pd #匯入pandas用於資料分析
titanic = pd.read_csv('')
titanic.head() #觀察前幾行資料
titanic.info() #檢視資料的統計特徵
#特徵選取,機器學習很重要的乙個環節
x = titanic[['pclass', 'age', '***']] #這三個特徵可能決定是否能夠倖免
y = titanic['survived']
x['age'].fillna(x['age'].mean, inplace = true) #將age特徵缺失行用平均值補充
#資料分割
from sklearn.cross_validation import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, train_size = 0.25, random_state = 33)
#特徵轉換器轉換特徵
from sklearn.feature_extraction import dictvectorizer
vec = dictvectorizer(sparse=false)
x_train = vec.fit_transform(x_train.to_dict(orient = 'record')) #將類別型的特徵都單獨剝離出來
x_test = vec.transform(x_test.to_dict(orient = 'record'))
#決策樹分類器
from sklearn.tree import decisiontreeclassifier
dtc = decisiontreeclassifier() #初始化分類器
dtc.fit(x_train, y_train) #訓練分類器
y_predict = dtc.predict(x_test) #用訓練好的模型進行**
#效能分析
from sklearn.metrics import classification_report
print('accuracy of decisiontree is :',dtc.score(x_test, y_test))
print(classification_report(y_predict, y_test, target_names=['died', 'suevived']))
結果:
決策樹分類
一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...
分類決策樹
決策樹是基於特徵對例項進行分類的樹形結構。決策樹學習演算法包括 特徵選擇 樹的生成和樹的剪枝。2.1.id3 1 針對當前的集合,計算每個特徵的資訊增益 2 選擇資訊增益最大的特徵作為當前節點的決策決策特徵 3 根據特徵不同的類別劃分到不同的子節點 比如年齡特徵有青年,中年,老年,則劃分到3顆子樹 ...
分類決策樹
決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...