Python 清洗資料

2022-09-13 09:15:07 字數 2965 閱讀 8576

import

numpy as np

import

pandas as pd

from pandas import

series,dataframe

s=series([1,2,3],index=['

a','

b','c'

])print

(s)'''

a 1

b 2

c 3

dtype: int64

'''print(np.max(s))#

可以進行np運算

s.name='

rank

's.index.name='

name

'print

(s)#

建立dataframe

sdata1=

print(sdata1)#

字典df1=dataframe(sdata1)

print

(df1)

'''name rank score

0 a 1 98

1 b 2 89

2 c 3 54

'''df2=dataframe(sdata1,columns=['

score

','name

','rank'])

print

(df2)

'''可以自動對齊,只是位置變化

score name rank

0 98 a 1

1 89 b 2

2 54 c 3

'''df3=dataframe(sdata1,columns=['

score

','name

','rank

','class

'],index=['

1','

2','3'

])print

(df3)

'''class這列是缺失值

score name rank class

1 98 a 1 nan

2 89 b 2 nan

3 54 c 3 nan

'''df4=df3.reindex(['

1','

2','

3','4'

])print

(df4)

'''重新索引

score name rank class

1 98.0 a 1.0 nan

2 89.0 b 2.0 nan

3 54.0 c 3.0 nan

4 nan nan nan nan

'''print(df4['

score'])

print(df4.ix['1'

])print(df2[df2['

score

']>60])#

返回df2中score大於60的值

'''score name rank

0 98 a 1

1 89 b 2

'''del df3['

class']

print(df3)#

刪除class這列

sdata1=

print

(sdata1)

df3=dataframe(sdata1,columns=['

score

','name

','rank

','class

'],index=['

1','

2','3'

])del df3['

class']

print

(df3)

print(df3.reindex(['

1','

2','

3','4'

]))print(df3.reindex(['

1','

2','

3','

4'],fill_value=0))#

缺失值賦值為0

'''score name rank

1 98 a 1

2 89 b 2

3 54 c 3

4 0 0 0

'''print(df3.reindex(['

0','

1','

2','3'

]))'''

score name rank

0 nan nan nan

1 98.0 a 1.0

2 89.0 b 2.0

3 54.0 c 3.0

'''print(df3.reindex(['

0','

1','

2','

3'],method='

bfill

'))#

向後填充

'''score name rank

0 98 a 1

1 98 a 1

2 89 b 2

3 54 c 3

'''print(df3.drop('

1'))#

刪除第一行

print(df3.drop('

score

',axis=1))#

刪除指定列,axis是維數,0是行,1是列

print(df3.t)#

轉置

python資料清洗

對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...

資料清洗 python

資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...

Python 資料清洗

重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...