用Python分析經典鐵達尼號專案

2021-10-04 09:54:31 字數 493 閱讀 7719

一共有891個樣本

survived的標籤是通過0或1來區分

大概38%的樣本是survived

大多數乘客(>76%)沒有與父母或是孩子一起旅行

大約30%的乘客有親屬和/或配偶一起登船

票價的差別非常大,少量的乘客(<1%)付了高達$512的費用

很少的乘客(<1%)年紀在64-80之間

import pandas as pd

import numpy as np

train = pd.read_csv(r"e:\train.csv",encoding='gbk',engine='python')

train.head()

train.info()

train.describe()

輸出

經典案例 鐵達尼號

import pandas as pd import graphviz 1.讀取資料,獲取特徵值 data pd.read excel r tietan.xls print data 2.pclass,age,feature data.loc pclass age print feature.inf...

kaggle泰坦尼克比賽總結

泰坦尼克資料探勘比賽是kaggle上的新手入門賽,作為乙個基礎還沒打好的菜雞強行敲了一波 但是大部分還是跟著別人的思路,看著別人的 寫的。因此 就不放了,放了跟搬運沒啥區別。單純總結一下學習感悟吧。做資料探勘的第一步就是讀取資料之後進行分析和預處理。所要用到的python 庫有pandas,nump...

泰坦尼克生存概率分析,決策樹的應用

決策樹 decision tree 是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將...