使用python進行資料清洗

2021-10-05 22:41:38 字數 737 閱讀 4963

1、在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段、每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有:

info函式:用於了解資料總體情況,包括行數,列數,各列名稱等,比如

shape函式:用於檢視資料矩陣的行和列 

describe函式:了解dataframe資料的描述性統計量,包括 count mean std min max 25% 50% 75% 等

count   195.000000  #數量

mean   2744.595385 #均值

std     424.739407 #標準差

min     865.000000 #最小值

25%    2460.600000 #上四分位

50%    2655.900000 #中位數

75%    3023.200000 #下四分位

max    4065.200000 #最大值

range  3200.200000 #極差max-min

var       0.154755 #變異係數 std/mean

2、對資料有乙個基本的了解之後,我們就開始資料清洗啦!

刪除不需要/多餘的變數或者字段

運用drop()函式,通常有三種等價的公式

使用SSIS進行資料清洗

原文 使用ssis進行資料清洗 oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結...

使用Pandas進行資料清洗

資料清洗的目的是修正異常值,以更好地進行運算和觀察結果。通過pandas對序列或資料幀的清洗分為兩個步驟 異常檢測和資料修正。1.異常檢測 pandas中的空值用 nan 表示,可以通過呼叫isnull和notnull來檢測序列物件和資料幀物件是否為異常值。2.資料修正資料檢測完畢之後,需要對資料進...

使用SSIS進行資料清洗

oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結合業務規則,這樣的 noisy ...