axis=1按照行處理
skipna=false 不過濾掉空值
df.count() 統計非nan值的數量
df[『key1』].count()
df.min()
df.quantile(q=0.75) 統計分位數,引數q確定位置,預設0.5
df.sum()
df.median()
df.std() ,df.var() 分別求標準差,方差
df.skew() 樣本的偏度
df.kurt()樣本的峰度
import pandas as pd
s=pd.series(list('dadadadad'))
sq=s.unique()
print(s)
print(sq) #得到惟一值的陣列
print(series(sq)) #變為series
輸出:
0 d
1 a
2 d
3 a
4 d
5 a
6 d
7 a
8 d
dtype: object
[『d』 『a』]
import pandas as pd
s=pd.series(list('dadadadad'))
sq=s.value_counts() #pd.value_counts(sq,sort=false)
print(sq)
輸出:
d 5
a 4
dtype: int64
得到乙個布林型的series或者dataframe
s=pd.series(np.arange(10,15))
df=pd.dataframe()
print(s)
print(df)
print(s.isin([5,14]))
print(df.isin(['a','bc','10',8]))
s=pd.series(['a','b','c','bbhello','123',np.nan,'hj'])
df=pd.dataframe()
df['key1']=df['key1'].str.upper()
print(s.str.count('b'))
print(df)
df.columns=df.columns.str.upper()
print(df)
與python內建的str函式一直
strip()去除前面空格
rstrip()去除後面空格
去除中間空格可以使用replace(』 『,』 heik』,n=1),n=1表示只會替換第乙個
split()
rsplit() 順序與split相反
s.str.split(『,』)[0]第零行
s.str.split(『,』).str[0]
s.str.split(『,』).str.get(1) 第乙個元素
s.str.split(『,』,expand=true,n=1)
s=pd.series(['a','b','c','bbhello','123',np.nan,'hj'])
df=pd.dataframe()
print(s.str[0])
print(s.str[:2])
print(df['key2'].str[0])
merge(left, right, how=』inner』, on=none, left_on=none, right_on=none,left_index=false, right_index=false, sort=true,suffixes=(『_ x』, 『_ y』), copy=true, indicator=false)
on:指的是用於連線的列索引名稱。必須存在右右兩個dataframe物件中,如果沒有指定且其他引數也未指定則以兩個dataframe的列名交集做為連線鍵。
right_on:右則dataframe中用作 連線鍵的列名。
left_index:使用左則dataframe中的行索引做為連線鍵
right_index: 使用右則dataframe中的行索引做為連線鍵
how:資料融合的方法(合併方式)。
inner:預設取交集
outer:取並集
left:按照left為主匹配,資料缺失範圍nan
right:右邊為主
sort:預設為true,將合併的資料進行排序。在大多數情況下設定為false可以提高效能
left = pd.dataframe()
right = pd.dataframe()
result = pd.merge(left, right, on=['key1', 'key2'])
join(self, other, on=none, how=』left』, lsuffix=」, rsuffix=」,sort=false)
其中引數的意義與merge方法基本相同,只是join方法預設為左外連線how=left
1.預設按索引合併,可以合併相同或相似的索引,不管他們有沒有重疊列。
2.可以連線多個dataframe
3.可以連線除索引外的其他列
4.連線方式用引數how控制
5.通過lsuffix=」, rsuffix=」 區分相同列名的列
pandas學習筆記
import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...
pandas學習筆記
1 建立物件,瀏覽資料 建立物件,瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...
pandas學習筆記
1.series 類似numpy中的一維陣列,表示為索引 從0開始 和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....