)# 檢視缺失的比例
]# 全部缺失
df[sub_set.isna().
any(1)
].head(
)# 至少有乙個缺失
)# 沒有缺失
資料處理中經常需要根據缺失值的大小、比例或其他特徵來進行行樣本或列特徵的刪除,pandas
中提供了dropna
函式來進行操作。
dropna
的主要引數為軸方向axis
(預設為0,即刪除行)、刪除方式how
、刪除的非缺失值個數閾值thresh
(非缺失
值\color
非缺失值
沒有達到這個數量的相應維度會被刪除)、備選的刪除子集subset
,其中how
主要有any
和all
兩種引數可以選擇。
在fillna
中有三個引數是常用的:value, method, limit
。其中,value
為填充值,可以是標量,也可以是索引到元素的字典對映;method
為填充方法,有用前面的元素填充ffill
和用後面的元素填充bfill
兩種型別,limit
引數表示連續缺失值的最大填充次數。
在關於interpolate
函式的文件
__ 描述中,列舉了許多插值法,包括了大量scipy
中的方法。由於很多插值方法涉及到比較複雜的數學知識,因此這裡只討論比較常用且簡單的三類情況,即線性插值、最近鄰插值和索引插值。
對於interpolate
而言,除了插值方法(預設為linear
線性插值)之外,有與fillna
類似的兩個常用引數,乙個是控制方向的limit_direction
,另乙個是控制最大連續缺失值插值個數的limit
。其中,限制插值的方向預設為forward
,這與fillna
的method
中的ffill
是類似的,若想要後向限制插值或者雙向限制插值可以指定為backward
或both
。
)# 預設的線性插值,等價於計算中點的值
s.interpolate(method=
'index'
)# 和索引有關的線性插值,計算相應索引大小對應的值
Pandas 缺失資料
一.處理缺失資料 二.濾除缺失資料 三.填充缺失資料 方法說明 dropna根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 fillna用指定值或插值方法 如 ffill 或 bfill 填充缺失資料 isnull返回乙個含有布林值的物件,這些布林值表示哪些值時預設...
Pandas缺失資料
一 缺失值的統計和刪除 缺失資訊的統計 資料處理中經常需要根據缺失值的大小 比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。dropna的主要引數為軸方向axis 預設為0,即刪除行 刪除方式how 刪除的非缺失值個數閾值thresh 非 缺 失 值 col...
Pandas 處理缺失資料
import numpy as np import pandas as pd from pandas import series,dataframes series a b np.nan,c d pd.isnull s 0 false 1 false 2 true 3 false 4 false d...