資料清洗的目的是修正異常值,以更好地進行運算和觀察結果。通過pandas
對序列或資料幀的清洗分為兩個步驟:異常檢測和資料修正。
1.異常檢測
pandas中的空值用『nan
』表示,可以通過呼叫isnull
和notnull
來檢測序列物件和資料幀物件是否為異常值。
2.資料修正資料檢測完畢之後,需要對資料進行修正。
(1)填充值:將序列或者資料幀中的異常值「nan
」使用其他資料進行填充。
(2)替換值:對於一些明顯出錯的資訊,如下列age
列中的『117』,『118』就可以使用replace
進行替換。
(3)刪除值:刪除異常值的同時會刪除對應的資料行,可以使用dropna方法進行清除異常資料。
dropna(axis=0, how=『any』, thresh=none, subset=none, inplace=false)
引數
import pandas as pd
dic =
df = pd.dataframe(dic)
# 當thresh設定為2時,將不會修改任何資料
利用pandas進行資料清洗的方法
目錄 我們有下面的乙個資料,利用其做簡單的資料分析。這是一家服裝店統計的會員資料。最上面的一行是列座標,最左側一列是行座標。列座標中,第 0 列代表的是序號,第 1 列代表的會員的姓名,第 2 列代表年齡,第 3 列代表體重,第 4 6 列代表男性會員的三圍尺寸,第 7 9 列代表女性會員的三圍尺寸...
使用SSIS進行資料清洗
原文 使用ssis進行資料清洗 oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結...
使用python進行資料清洗
1 在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段 每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有 info函式 用於了解資料總體情況,包括行數,列數,各列名稱等,比如 shape函式 用於檢視資料矩陣的行和列 describe函式 了解datafram...