學習總結01 機器學習

2021-10-10 20:41:58 字數 2431 閱讀 1460

三、使用pandas練習資料預處理

在本週的學習中,主要閱讀了《機器學習》的

一、二章,了解了機器學習的相關概念。在機器學習中,我們需要通過某種方法:留出法、交叉驗證法或自助法,將資料分為訓練集和測試集;在訓練集上的誤差為經驗誤差,在測試集上的誤差為泛化誤差,出現「過擬合」時,模型可能在訓練集上表現良好,但在測試集中表現較差;通過驗證集,我們可以在訓練集上不斷調參,選擇合適的模型,再在測試集上進行測試。

有時錯誤率和精確度不能完全體現泛化能力,我們需要查準率p和查全率r來進行衡量,因為p和r時一對矛盾的度量,我們可以通過平衡點、f1度量、fβ度量衡量p-r曲線的好壞。在混淆矩陣中,tpr和fpr又組成了roc曲線,tpr指真正例率,fpr指假正例率,則tpr越大越好,fpr越小越好,roc下的面積auc可以用來衡量曲線的好壞。

pandas 是 python 的核心資料分析支援庫,提供了快速、靈活、明確的資料結構,旨在簡單、直觀地處理關係型、標記型資料。在pandas中,主要有dataframe和series兩種資料結構,分別儲存二維資料和一維資料。其中,index表示行,columns表示列。

# 讀取檔案

import pandas as pd

import numpy as np

df=pd.read_csv(

'titanic.csv'

)df.head(

)# 顯示後5行

df.tail(

)

# 讀取某一行

print

(df.loc[0]

)# 使用[i:j]切片查詢行,包含j行

print

(df.loc[3:

6])

# 讀取某一具體的值

df['age'][

3]

# 讀取某一列,顯示前5行,預設加上索引

age=df[

'age'

]print

(age[:5

])# 讀取多列

df[[

'age'

,'***'

]]

# 處理缺失值,true表示為缺失值,可以將true/false作為索引

age_is_null=pd.isnull(df[

'age'])

print

(age_is_null)

age_null=df[

'age'

][age_is_null]

print

(age_null)

# 不處理缺失值,造成錯誤

mean_age=

sum(age)

/len

(age)

print

(mean_age)

# 去掉缺失值

age_not_null=age[age_is_null==

false

]right_mean_age=

sum(age_not_null)

/len

(age_not_null)

print

(right_mean_age)

print

(age.mean(

))

# 查詢最大值

max_age=age.

max(

)min_age=age.

min(

)print

(max_age)

print

(min_age)

# 歸一化處理

normalized_age=

(df[

'age'

]-min_age)

/(max_age-min_age)

df['normalized_age'

]=normalized_age

print

(df[

'normalized_age'

])

# pivot_table(),檢視船艙等級和獲救人數的關係,values傳遞多引數時使用,aggfunc預設為np.mean

survival=df.pivot_table(index=

'pclass'

,values=

'survived'

)print

(survival)

# 查詢第100個值

defhundred_row

(column)

:return column.loc[99]

hundredth_row=df.

(hundred_row)

print

(hundredth_row)

機器學習01 初識機器學習

4.基本步驟 5.基本術語 6.參考 機器學習 machine learning 是一門人工智慧的學科,它模擬人類的學習行為,從已有的資料中習得經驗,再利用這些經驗對未知的資料進行 或判斷,以此來改善計算機演算法的效能。與傳統程式設計和演算法相比 傳統程式設計由程式設計師給演算法指定規則,機器學習由...

機器學習筆記01 機器學習簡介

機器學習是人工智慧的乙個分支,它業是一類演算法的總稱。這些演算法能夠根據提供的訓練資料按照一定的方式來學習,最終用於 或者分類。更具體的說,機器學習可以看作是尋找乙個函式,輸入是樣本資料,輸出是期望的結果,只是這個函式過於複雜,以至於不太方便形式化表達。需要注意的是,機器學習的目標是使學到的函式很好...

zxl 機器學習 01

網路 演算法 機器 優化 概率 統計 資料 矩陣 資訊 模型 推理 知識靠學習 機器學習是把資料變成知識的和過程。計算機和數學的結合。統計提供建模的框架framework。資料探勘和機器學習本質上無區別,機器學習更偏數學。區別 ml機器學習 stat統計學 networks,graphs網路,圖形 ...