二、處理缺失值
首先拿到乙份資料,以dataframe提取後,要檢視缺失值的情況
import pandas as pd
df = pd.read_csv(***)
df.isnull(
)# 獲得true,false的返回值
df.isnull().
sum(
)# 判斷缺失的數量
常用此介面來快速判斷各特徵的缺失值情況!
df.dropna()
直接丟掉缺失值,預設丟掉樣本,即na對應的行
df.dropna(axis = 1)
直接丟掉缺失值,丟掉特徵,即丟掉na對應的列
df.dropna(thresh=4)
設定閾值,要求樣本至少含有4個非缺失資料,否則會丟棄
df.dropna(subset=[『c』])
僅丟掉』c』列存在缺失值的樣本,其他列忽視
工具:imputer
from sklearn.preprocessing import imputer
imr = imputer(missing_values=
'nan'
, strategy=
'mean'
, axis=0)
#採取該特徵下完整資料的平均值來填充na
imr = imr.fit(df)
imputed_data = imr.transform(df.values)
imputed_data
fillna(self, value=none, method=none, axis=none, inplace=false, limit=none, downcast=none, **kwargs)
df.fillna(0)
value=0, 即用0來填充缺失值,常用於連續值的填充
df.fillna(-1)
value=-1, 即用-1來填充缺失值,常用於類別型特徵的填充
df.fillna(『ffill』)
method=『ffill』,向下填充策略
df.fillna(『bfill』)
method=『bfill』,向上填充策略
df.fillna(df.mean())
平均值填充策略
df.fillna(df.median())
中位數填充策略
Pandas缺失值處理
判斷資料是否為nan pd.isnull df pd.notnull df 判斷缺失值是否存在 np.all pd.notnull data 返回false代表有空值 np.any pd.isnull data 返回true代表有空值處理方式 2 替換缺失值 fillna value,inplace...
Pandas的缺失值處理
處理方式 不是缺失值nan,有預設標記的 判斷資料是否為nan pd.isnull df pd.notnull df pd.isna df 讀取資料 movie pd.read csv date imdb movie data.csv 第一種 刪除 pandas刪除缺失值,使用dropna的前提是,...
pandas 高階處理 缺失值處理
存在缺失值nan,並且是np.nan 2 替換缺失值 fillna value,inplace true value 替換成的值 3如果缺失值沒有使用nan標記,比如使用 讀取電影資料 判斷是否全不為空,如果沒有空返回true,否則flase np.all pd.notnull movie 不修改原...