匯入相應的庫和資料
import numpy as np
import pandas as pd
import seaborn as sns
# read the data
df = pd.read_csv(
'sberbank.csv'
)# shape and data types of the data
print
(df.shape)
print
(df.dtypes)
#select numeric columns
df_numeric=df.select_types(include=
[np.number]
)numeric_cols=df.numeric.columns.values
print
(numeric_cols)
1、缺失資料data.isnull(
)#檢視所有缺失值
data.isnull().
any(
)#獲取含有缺失值的列
data.isnull().
all(
)#獲取全部為na的列
拋棄缺失值df.drop(in_missing,axis=
0,index=
true
)
填充觀察值
眾數、均值、中位數、統一的數,如『-1』
#下面是中位數填充
med=df[
'life_sq'
].median(
)print
(med)
df['life_sq'
].fillna(med)
2、重複值處理pandas.dataframe.drop_duplicates(self, subset=
none
, keep=』first』, inplace=
false
)pandas.series.drop_duplicates(self, keep=』first』, inplace=
false
)
3、值替換import numpy as np
data.replace([-
999,
-1000
], np.nan)
data.replace(
)
4、啞變數操作df=pd.get_dummies(df[
'key'
])
python資料清洗
對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...
資料清洗 python
資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...
Python 資料清洗
重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...