今天總結下缺失資料處理心得。在拿到資料、拼接資料、彙總資料時,一定要使用df.isna().sum()或df.isna().mean()觀察是否存在缺失資料,後乙個方法還可以檢測出缺失資料佔比。(我今天在使用groupby彙總資料時,忘記檢視缺失資料,導致結果不全,白白浪費1個小時時間)
因時間關係,我就簡單講解下常用處理缺失資料思路。
1、pandas自帶缺失值處理方法fillna(),在 fillna 中有四個引數是常用的: value, method, limit,inplace 。其中, value 為填充值,可以是標量,也可以是索引到元素的字典對映; method 為填充方法,有用前面的元素填充 ffill 和用後面的元素填充 bfill 兩種型別; limit 引數表示連續缺失值的最大填充次數;inplace 引數表示是否在原dataframe上修改,預設是false。
當所有欄位用同乙個值填充時,df.fillna(0,inplace=true);
當多個字段分別用不同值填充時,df.fillna(,inplace=true)
2、插值函式填充,使用 interpolate函式,很多插值方法涉及到比較複雜的數學知識,大部分是使用建模思想填充缺失資料。實際業務中,插值填充需謹慎操作,需選擇可解釋的模型進行填充,否則填充後的資料難以得到其他業務人員的認可。
參考資料:
pandas記錄之缺失資料
資料讀取 帶資料型別 import pandas as pd df pd.read csv data missing data two.csv convert dtypes df.info class pandas.core.frame.dataframe rangeindex 36 entries...
Pandas 缺失資料
一.處理缺失資料 二.濾除缺失資料 三.填充缺失資料 方法說明 dropna根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 fillna用指定值或插值方法 如 ffill 或 bfill 填充缺失資料 isnull返回乙個含有布林值的物件,這些布林值表示哪些值時預設...
Pandas缺失資料
一 缺失值的統計和刪除 缺失資訊的統計 資料處理中經常需要根據缺失值的大小 比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。dropna的主要引數為軸方向axis 預設為0,即刪除行 刪除方式how 刪除的非缺失值個數閾值thresh 非 缺 失 值 col...