1、在資料清洗前,我們需要先檢視資料概況,了解我們需要清洗的資料大概包含什麼字段、每個字段下面資料範圍大概如何,資料清洗常用到的函式和語法分別有:
info函式:用於了解資料總體情況,包括行數,列數,各列名稱等,比如
shape函式:用於檢視資料矩陣的行和列
describe函式:了解dataframe資料的描述性統計量,包括 count mean std min max 25% 50% 75% 等
count 195.000000 #數量2、對資料有乙個基本的了解之後,我們就開始資料清洗啦!mean 2744.595385 #均值
std 424.739407 #標準差
min 865.000000 #最小值
25% 2460.600000 #上四分位
50% 2655.900000 #中位數
75% 3023.200000 #下四分位
max 4065.200000 #最大值
range 3200.200000 #極差max-min
var 0.154755 #變異係數 std/mean
刪除不需要/多餘的變數或者字段
運用drop()函式,通常有三種等價的公式
使用SSIS進行資料清洗
原文 使用ssis進行資料清洗 oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結...
使用Pandas進行資料清洗
資料清洗的目的是修正異常值,以更好地進行運算和觀察結果。通過pandas對序列或資料幀的清洗分為兩個步驟 異常檢測和資料修正。1.異常檢測 pandas中的空值用 nan 表示,可以通過呼叫isnull和notnull來檢測序列物件和資料幀物件是否為異常值。2.資料修正資料檢測完畢之後,需要對資料進...
使用SSIS進行資料清洗
oltp系統的後端關聯式資料庫用於儲存不同種類的資料,理論上來講,資料庫中每一列的值都有其所代表的特定含義,資料也應該在存入資料庫之前進行規範化處理,比如說 age 列,用於儲存人的年齡,設定的資料型別為int型別。存入資料庫的值是2000雖然看起來沒有任何問題,但結合業務規則,這樣的 noisy ...