資料清洗總結 python資料分析

2021-10-23 23:05:52 字數 1352 閱讀 8722

匯入相應的庫和資料

import numpy as np

import pandas as pd

import seaborn as sns

# read the data

df = pd.read_csv(

'sberbank.csv'

)# shape and data types of the data

print

(df.shape)

print

(df.dtypes)

#select numeric columns

df_numeric=df.select_types(include=

[np.number]

)numeric_cols=df.numeric.columns.values

print

(numeric_cols)

1、缺失資料
data.isnull(

)#檢視所有缺失值

data.isnull().

any(

)#獲取含有缺失值的列

data.isnull().

all(

)#獲取全部為na的列

拋棄缺失值
df.drop(in_missing,axis=

0,index=

true

)

填充觀察值

眾數、均值、中位數、統一的數,如『-1』

#下面是中位數填充

med=df[

'life_sq'

].median(

)print

(med)

df['life_sq'

].fillna(med)

2、重複值處理
pandas.dataframe.drop_duplicates(self, subset=

none

, keep=』first』, inplace=

false

)pandas.series.drop_duplicates(self, keep=』first』, inplace=

false

)

3、值替換
import numpy as np

data.replace([-

999,

-1000

], np.nan)

data.replace(

)

4、啞變數操作
df=pd.get_dummies(df[

'key'

])

python資料清洗

對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...

資料清洗 python

資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...

Python 資料清洗

重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...