本文對pandas包中的一維資料型別series特點及用法進行了總結歸納。
#匯入pandas包
import pandas as pd
#建立series
#1.1.1 通過列表list
listser=pd.series([10
,20,30
,40])
print
(listser)
#1.1.2 通過字典dict
dictser=pd.series(
,name=
'數值'
)print
(dictser)
#1.1.3 通過array
import numpy as np
arryser=pd.series(np.arange(10,
15),index=
['a'
,'b'
,'c'
,'d'
,'e'])
print
(arryser)
[output]010
120230
340dtype: int64
a 10
b 40
c 5
d 90
e 35
f 40
name: 數值, dtype: int64
a 10
b 11
c 12
d 13
e 14
dtype: int64
series型別包括(index,values)兩部分
#index
print
(arryser.index)
#values
print
(arryser.values)
[output]
index(
['a'
,'b'
,'c'
,'d'
,'e'
],dtype=
'object')[
1011
1213
14]
#iloc通過位置獲取資料
dictser[0:
1]#相當於dictser.iloc[0:1]
>>
>
a 10
name: 數值, dtype: int64
#loc通過索引獲取資料
dictser[
['a'
,'b']]
#相當於dictser.loc[['a','b']]
>>
>
a 10
b 40
name: 數值, dtype: int64
#boolean indexing獲取值
dictser[dictser.values<=10]
#獲取值不超過10的資料
>>
>
a 10
c 5
name: 數值, dtype: int64
dictser[dictser.index!=
'a']
#獲取索引值不是a的資料
>>
>
b 40
c 5
d 90
e 35
f 40
name: 數值, dtype: int64
檢視描述性統計資料
dictser.describe(
)>>
>
count 6.000000
mean 36.666667
std 30.276504
min5.00000025%
16.25000050%
37.50000075%
40.000000
max90.000000
name: 數值, dtype: float64
dictser.mean(
)#均值
dictser.median(
)#中位數
dictser.
sum(
)#求和
dictser.std(
)#標準差
dictser.mode(
)#眾數
dictser.value_counts(
)#每個值的數量
數**算
dictser/
2#對每個值除2
dictser//
2#對每個值除2後取整
dictser%
2#取餘
dictser**
2#求平方
np.sqrt(dictser)
#求開方
np.log(dictser)
#求對數
對齊計算
dictser2=pd.series(
,name=
'數值'
)dictser3=dictser+dictser2
dictser3
>>
>
a 20.0
b 60.0
c nan
d 113.0
e nan
f nan
g nan
h nan
i nan
name: 數值, dtype: float64
#找出空/非空值
dictser3[dictser3.notnull()]
#非空值
>>
>
a 20.0
b 60.0
d 113.0
name: 數值, dtype: float64
dictser3[dictser3.isnull()]
#>
c nan
e nan
f nan
g nan
h nan
i nan
name: 數值, dtype: float64
#填充空值
dictser3=dictser3.fillna(dictser3.mean())
#用均值來填充缺失值
>>
>
a 20.000000
b 60.000000
c 64.333333
d 113.000000
e 64.333333
f 64.333333
g 64.333333
h 64.333333
i 64.333333
name: 數值, dtype: float64
dictser3=dictser3.drop(
'b')
print
(dictser3)
>>
>
a 20.000000
c 64.333333
d 113.000000
e 64.333333
f 64.333333
g 64.333333
h 64.333333
i 64.333333
name: 數值, dtype: float64
相近文章:numpy中array用法總結
pandas中dataframe用法總結
python pandas中的agg函式
python中的agg函式通常用於呼叫groupby 函式之後,對資料做一些聚合操作,包括sum,min,max以及其他一些聚合函式 如下所示 df pd.read excel r d myexcel 1.xlsx df a b c 0 bob 12 451 millor 15 232 bob 34...
Python pandas,建立Series型別
numpy只能處理數值型別的資料。pandas除了可以處理數值型別外,還可以處理非數值型別的資料 例如 字串 時間序列等 pandas常用的資料型別 series 一維,帶標籤的陣列,對應資料庫中的一條記錄 dataframe 二維,series容器,對應資料庫中的表 demo.py series的...
python pandas使用記錄
在使用numpy中array格式的矩陣時,我們通常使用如a 2 4,5 10 獲取陣列中一部分資料,但是dataframe結構的陣列就不能這麼寫,可以使用iloc方法,即index locate,另外有個相似的方法loc,這個方法是通過column名字進行資料定位的 import pandas as...