資料清洗 python

2021-09-24 15:02:25 字數 994 閱讀 2912

資料清洗–python

1.1引言

對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找(容易累死),所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言:matlab和python,這裡我先介紹一下用python進行資料清洗。

1.2準備

首先去官網安裝python ,然後開啟你的控制台,在裡面輸入

pip install numpy

pip install pandas

1.3資料清洗

1)資料讀取

import numpy as np

import pandas as pd

loandata = pd.dataframe(pd.read_excel('你的excel檔名.xlsx'))

2)重複值處理

loandata.duplicated()#尋找重複值

loandata.drop_duplicates()#刪除重複值

3)空值即缺失值處理

loandata.isnull()#尋找空值,返回bool型別

loandata.notnull()#尋找非空值

loandata.fillna(0)#空值用0填充

loandata.dropna()#空值捨去

4)異常值,極端值處理

loandata.describe().astype(np.int64).t#使用describe函式可以生成描述統計結果,大體檢測是否有異常,極端值

loandata.replace([100000,36],loandata['你的專案中的一項'].mean())#異常值替換

loandata['你的專案中的一項']=loandata['你的專案中的一項'].astype(np.int64)#更改資料格式

python資料清洗

對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...

Python 資料清洗

重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...

Python 清洗資料

import numpy as np import pandas as pd from pandas import series,dataframe s series 1,2,3 index a b c print s a 1 b 2 c 3 dtype int64 print np.max s 可...