三、使用pandas練習資料預處理
在本週的學習中,主要閱讀了《機器學習》的
一、二章,了解了機器學習的相關概念。在機器學習中,我們需要通過某種方法:留出法、交叉驗證法或自助法,將資料分為訓練集和測試集;在訓練集上的誤差為經驗誤差,在測試集上的誤差為泛化誤差,出現「過擬合」時,模型可能在訓練集上表現良好,但在測試集中表現較差;通過驗證集,我們可以在訓練集上不斷調參,選擇合適的模型,再在測試集上進行測試。
有時錯誤率和精確度不能完全體現泛化能力,我們需要查準率p和查全率r來進行衡量,因為p和r時一對矛盾的度量,我們可以通過平衡點、f1度量、fβ度量衡量p-r曲線的好壞。在混淆矩陣中,tpr和fpr又組成了roc曲線,tpr指真正例率,fpr指假正例率,則tpr越大越好,fpr越小越好,roc下的面積auc可以用來衡量曲線的好壞。
pandas 是 python 的核心資料分析支援庫,提供了快速、靈活、明確的資料結構,旨在簡單、直觀地處理關係型、標記型資料。在pandas中,主要有dataframe和series兩種資料結構,分別儲存二維資料和一維資料。其中,index表示行,columns表示列。
# 讀取檔案
import pandas as pd
import numpy as np
df=pd.read_csv(
'titanic.csv'
)df.head(
)# 顯示後5行
df.tail(
)
# 讀取某一行
print
(df.loc[0]
)# 使用[i:j]切片查詢行,包含j行
print
(df.loc[3:
6])
# 讀取某一具體的值
df['age'][
3]
# 讀取某一列,顯示前5行,預設加上索引
age=df[
'age'
]print
(age[:5
])# 讀取多列
df[[
'age'
,'***'
]]
# 處理缺失值,true表示為缺失值,可以將true/false作為索引
age_is_null=pd.isnull(df[
'age'])
print
(age_is_null)
age_null=df[
'age'
][age_is_null]
print
(age_null)
# 不處理缺失值,造成錯誤
mean_age=
sum(age)
/len
(age)
print
(mean_age)
# 去掉缺失值
age_not_null=age[age_is_null==
false
]right_mean_age=
sum(age_not_null)
/len
(age_not_null)
print
(right_mean_age)
print
(age.mean(
))
# 查詢最大值
max_age=age.
max(
)min_age=age.
min(
)print
(max_age)
print
(min_age)
# 歸一化處理
normalized_age=
(df[
'age'
]-min_age)
/(max_age-min_age)
df['normalized_age'
]=normalized_age
print
(df[
'normalized_age'
])
# pivot_table(),檢視船艙等級和獲救人數的關係,values傳遞多引數時使用,aggfunc預設為np.mean
survival=df.pivot_table(index=
'pclass'
,values=
'survived'
)print
(survival)
# 查詢第100個值
defhundred_row
(column)
:return column.loc[99]
hundredth_row=df.
(hundred_row)
(hundredth_row)
機器學習01 初識機器學習
4.基本步驟 5.基本術語 6.參考 機器學習 machine learning 是一門人工智慧的學科,它模擬人類的學習行為,從已有的資料中習得經驗,再利用這些經驗對未知的資料進行 或判斷,以此來改善計算機演算法的效能。與傳統程式設計和演算法相比 傳統程式設計由程式設計師給演算法指定規則,機器學習由...
機器學習筆記01 機器學習簡介
機器學習是人工智慧的乙個分支,它業是一類演算法的總稱。這些演算法能夠根據提供的訓練資料按照一定的方式來學習,最終用於 或者分類。更具體的說,機器學習可以看作是尋找乙個函式,輸入是樣本資料,輸出是期望的結果,只是這個函式過於複雜,以至於不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函式很好...
zxl 機器學習 01
網路 演算法 機器 優化 概率 統計 資料 矩陣 資訊 模型 推理 知識靠學習 機器學習是把資料變成知識的和過程。計算機和數學的結合。統計提供建模的框架framework。資料探勘和機器學習本質上無區別,機器學習更偏數學。區別 ml機器學習 stat統計學 networks,graphs網路,圖形 ...