一共有891個樣本
survived的標籤是通過0或1來區分
大概38%的樣本是survived
大多數乘客(>76%)沒有與父母或是孩子一起旅行
大約30%的乘客有親屬和/或配偶一起登船
票價的差別非常大,少量的乘客(<1%)付了高達$512的費用
很少的乘客(<1%)年紀在64-80之間
import pandas as pd
import numpy as np
train = pd.read_csv(r"e:\train.csv",encoding='gbk',engine='python')
train.head()
train.info()
train.describe()
輸出
經典案例 鐵達尼號
import pandas as pd import graphviz 1.讀取資料,獲取特徵值 data pd.read excel r tietan.xls print data 2.pclass,age,feature data.loc pclass age print feature.inf...
kaggle泰坦尼克比賽總結
泰坦尼克資料探勘比賽是kaggle上的新手入門賽,作為乙個基礎還沒打好的菜雞強行敲了一波 但是大部分還是跟著別人的思路,看著別人的 寫的。因此 就不放了,放了跟搬運沒啥區別。單純總結一下學習感悟吧。做資料探勘的第一步就是讀取資料之後進行分析和預處理。所要用到的python 庫有pandas,nump...
泰坦尼克生存概率分析,決策樹的應用
決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將...