一、讀入titanic.xlsx檔案,按照教材示例步驟,完成資料清洗。
titanic資料集包含11個特徵,分別是:
survived:0代表死亡,1代表存活
pclass:乘客所持票類,有三種值(1,2,3)
name:乘客姓名
***:乘客性別
age:乘客年齡(有缺失)
sibsp:乘客兄弟姐妹/配偶的個數(整數值)
parch:乘客父母/孩子的個數(整數值)
ticket:票號(字串)
fare:乘客所持票的**(浮點數,0-500不等)
cabin:乘客所在船艙(有缺失)
embark:乘客登船港口:s、c、q(有缺失)
二、對titanic資料集完成以下統計操作
1.統計乘客死亡和存活人數
import pandas aspddf = pd.read_excel('
f:\hhh/titanic.xlsx')
df.head()
#計算生存者總數
df[df[
"survived
"]>0].shape[0
]#計算死亡者總數
2.統計乘客中男女性別人數#乘客中女性個數為314df[df[
"***
"]!="
male
"].shape[0
]#乘客中男性個數
3.統計男女獲救的人數#查詢男性倖存者數量5.使用corr()函式,判斷兩個屬性是否具有相關性,分析艙位的高低和存活率的關係rf = df[(df["
survived
"]>0
)]rf[rf[
"***
"] == "
male
"].shape[0
]#查詢女性倖存者數量
4.統計乘客所在的船艙等級的人數#檢視票型別為1類的乘客數量#檢視票型別為3類的乘客數量one=df[df["
pclass
"]==1].shape[0
]print(one)
#檢視票型別為2類的乘客數量
two=df[df["
pclass
"]==2].shape[0
]print(two)
c =df.corr()6.畫出乘客票價與艙位等級的箱體圖boxplot,從圖中能夠得到哪些結論?c.loc[
'pclass
','survived']
#對值取絕對值,為0.338481說明船艙高低與存活率關聯性比較低
第2次作業
案例分析 一 調研 1.第一次上手的體驗 qq都有,但是 qq2.至少乙個bug,用專業語言描述 bugbug的定義 軟體的缺陷 bug可以理解為 症狀 symptom 程式錯誤 fault 根本原因 root cause 1 症狀 即從使用者的角度看,軟體出了問題。2 程式錯誤 即從 的角度看,的...
第2次作業
一 學習內容總結 在計算機中,記憶體是以位元組為單位的連續儲存空間,每乙個位元組都有乙個編號,這個編號稱為位址。系統為變數分配記憶體單元位址,位址是乙個無符號的整型數。對變數值的訪問操作都是通過位址進行的,直接按變數的位址訪問變數值的方式稱為直接儲存方式。通過變數a得到變數b的位址,然後再訪問變數b...
第2次作業
github專案位址 psp2.1 personal software process stages 預估耗時 分鐘 實際耗時 分鐘 planning計畫0 0 estimate 估計這個任務需要多少時間 240420 development開發0 0 analysis 需求分析 包括學習新技術 1...