importnumpy as np
import
pandas as pd
from pandas import
series,dataframe
s=series([1,2,3],index=['
a','
b','c'
(s)'''
a 1
b 2
c 3
dtype: int64
'''print(np.max(s))#
可以進行np運算
s.name='
rank
's.index.name='
name
(s)#
建立dataframe
sdata1=
print(sdata1)#
字典df1=dataframe(sdata1)
(df1)
'''name rank score
0 a 1 98
1 b 2 89
2 c 3 54
'''df2=dataframe(sdata1,columns=['
score
','name
','rank'])
(df2)
'''可以自動對齊,只是位置變化
score name rank
0 98 a 1
1 89 b 2
2 54 c 3
'''df3=dataframe(sdata1,columns=['
score
','name
','rank
','class
'],index=['
1','
2','3'
(df3)
'''class這列是缺失值
score name rank class
1 98 a 1 nan
2 89 b 2 nan
3 54 c 3 nan
'''df4=df3.reindex(['
1','
2','
3','4'
(df4)
'''重新索引
score name rank class
1 98.0 a 1.0 nan
2 89.0 b 2.0 nan
3 54.0 c 3.0 nan
4 nan nan nan nan
'''print(df4['
score'])
print(df4.ix['1'
])print(df2[df2['
score
']>60])#
返回df2中score大於60的值
'''score name rank
0 98 a 1
1 89 b 2
'''del df3['
class']
print(df3)#
刪除class這列
sdata1=
(sdata1)
df3=dataframe(sdata1,columns=['
score
','name
','rank
','class
'],index=['
1','
2','3'
])del df3['
class']
(df3)
print(df3.reindex(['
1','
2','
3','4'
]))print(df3.reindex(['
1','
2','
3','
4'],fill_value=0))#
缺失值賦值為0
'''score name rank
1 98 a 1
2 89 b 2
3 54 c 3
4 0 0 0
'''print(df3.reindex(['
0','
1','
2','3'
]))'''
score name rank
0 nan nan nan
1 98.0 a 1.0
2 89.0 b 2.0
3 54.0 c 3.0
'''print(df3.reindex(['
0','
1','
2','
3'],method='
bfill
'))#
向後填充
'''score name rank
0 98 a 1
1 98 a 1
2 89 b 2
3 54 c 3
'''print(df3.drop('
1'))#
刪除第一行
print(df3.drop('
score
',axis=1))#
刪除指定列,axis是維數,0是行,1是列
print(df3.t)#
轉置
python資料清洗
對於資料中缺失的值,可以有3種方法處理 1.刪除。比如餐廳的營業額,有幾天去裝修了,確實沒營業,可以刪除 2.不處理 有一些模型可以將缺失值作為一種特殊的值,可以直接建模。3.補上 均值 中位數 眾數 一般情況吧 固定值 比如工資啊,補貼啊 最近臨插補 最近的值,相鄰的,補上 下面是拉格朗日插值法 ...
資料清洗 python
資料清洗 python 1.1引言 對於處理大資料問題,首先就是要進行資料預處理,排除掉那些那些很離譜的資料,當然我們肯定不能乙個乙個用眼睛來找 容易累死 所以我們就要學會如何用程式來進行資料的預處理,我們常常用兩種語言 matlab和python,這裡我先介紹一下用python進行資料清洗。1.2...
Python 資料清洗
重複值處理 一般採取刪除法,但是有些不能刪 df.duplicated df.duplicated subset keep last first np.sum sd.duplicated df.dorp duplicates subset keep last first inplace true f...