使用Pandas進行資料清洗

2021-10-21 06:59:22 字數 1418 閱讀 8496

資料清洗的目的是修正異常值,以更好地進行運算和觀察結果。通過pandas對序列或資料幀的清洗分為兩個步驟:異常檢測和資料修正。

1.異常檢測

pandas中的空值用『nan』表示,可以通過呼叫isnullnotnull來檢測序列物件和資料幀物件是否為異常值。

2.資料修正資料檢測完畢之後,需要對資料進行修正。

(1)填充值:將序列或者資料幀中的異常值「nan」使用其他資料進行填充。

(2)替換值:對於一些明顯出錯的資訊,如下列age列中的『117』,『118』就可以使用replace進行替換。

(3)刪除值:刪除異常值的同時會刪除對應的資料行,可以使用dropna方法進行清除異常資料。

dropna(axis=0, how=『any』, thresh=none, subset=none, inplace=false)

引數

import pandas as pd

dic =

df = pd.dataframe(dic)

# 當thresh設定為2時,將不會修改任何資料

利用pandas進行資料清洗的方法

目錄 我們有下面的乙個資料,利用其做簡單的資料分析。這是一家服裝店統計的會員資料。最上面的一行是列座標,最左側一列是行座標。列座標中,第 0 列代表的是序號,第 1 列代表的會員的姓名,第 2 列代表年齡,第 3 列代表體重,第 4 6 列代表男性會員的三圍尺寸,第 7 9 列代表女性會員的三圍尺寸...

使用SSIS進行資料清洗

原文 使用ssis進行資料清洗 oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結...

使用python進行資料清洗

1 在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段 每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有 info函式 用於了解資料總體情況,包括行數,列數,各列名稱等,比如 shape函式 用於檢視資料矩陣的行和列 describe函式 了解datafram...