pandas 缺失資料

2021-10-13 20:35:40 字數 3297 閱讀 1895

)# 檢視缺失的比例

]# 全部缺失

df[sub_set.isna().

any(1)

].head(

)# 至少有乙個缺失

)# 沒有缺失

資料處理中經常需要根據缺失值的大小、比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。

dropna的主要引數為軸方向axis(預設為0,即刪除行)、刪除方式how、刪除的非缺失值個數閾值thresh(非缺失

值\color

非缺失值

沒有達到這個數量的相應維度會被刪除)、備選的刪除子集subset,其中how主要有anyall兩種引數可以選擇。

fillna中有三個引數是常用的:value, method, limit。其中,value為填充值,可以是標量,也可以是索引到元素的字典對映;method為填充方法,有用前面的元素填充ffill和用後面的元素填充bfill兩種型別,limit引數表示連續缺失值的最大填充次數。

在關於interpolate函式的文件__ 描述中,列舉了許多插值法,包括了大量scipy中的方法。由於很多插值方法涉及到比較複雜的數學知識,因此這裡只討論比較常用且簡單的三類情況,即線性插值、最近鄰插值和索引插值。

對於interpolate而言,除了插值方法(預設為linear線性插值)之外,有與fillna類似的兩個常用引數,乙個是控制方向的limit_direction,另乙個是控制最大連續缺失值插值個數的limit。其中,限制插值的方向預設為forward,這與fillnamethod中的ffill是類似的,若想要後向限制插值或者雙向限制插值可以指定為backwardboth

)# 預設的線性插值,等價於計算中點的值

s.interpolate(method=

'index'

)# 和索引有關的線性插值,計算相應索引大小對應的值

Pandas 缺失資料

一.處理缺失資料 二.濾除缺失資料 三.填充缺失資料 方法說明 dropna根據各標籤的值中是否存在缺失資料對軸標籤進行過濾,可通過閾值調節對缺失值的容忍度 fillna用指定值或插值方法 如 ffill 或 bfill 填充缺失資料 isnull返回乙個含有布林值的物件,這些布林值表示哪些值時預設...

Pandas缺失資料

一 缺失值的統計和刪除 缺失資訊的統計 資料處理中經常需要根據缺失值的大小 比例或其他特徵來進行行樣本或列特徵的刪除,pandas中提供了dropna函式來進行操作。dropna的主要引數為軸方向axis 預設為0,即刪除行 刪除方式how 刪除的非缺失值個數閾值thresh 非 缺 失 值 col...

Pandas 處理缺失資料

import numpy as np import pandas as pd from pandas import series,dataframes series a b np.nan,c d pd.isnull s 0 false 1 false 2 true 3 false 4 false d...