pandas學習筆記(四)

2021-08-21 21:35:23 字數 2780 閱讀 5109

axis=1按照行處理

skipna=false 不過濾掉空值

df.count() 統計非nan值的數量

df[『key1』].count()

df.min()

df.quantile(q=0.75) 統計分位數,引數q確定位置,預設0.5

df.sum()

df.median()

df.std() ,df.var() 分別求標準差,方差

df.skew() 樣本的偏度

df.kurt()樣本的峰度

import pandas as pd

s=pd.series(list('dadadadad'))

sq=s.unique()

print(s)

print(sq) #得到惟一值的陣列

print(series(sq)) #變為series

輸出:

0 d

1 a

2 d

3 a

4 d

5 a

6 d

7 a

8 d

dtype: object

[『d』 『a』]

import pandas as pd

s=pd.series(list('dadadadad'))

sq=s.value_counts() #pd.value_counts(sq,sort=false)

print(sq)

輸出:

d 5

a 4

dtype: int64

得到乙個布林型的series或者dataframe

s=pd.series(np.arange(10,15))

df=pd.dataframe()

print(s)

print(df)

print(s.isin([5,14]))

print(df.isin(['a','bc','10',8]))

s=pd.series(['a','b','c','bbhello','123',np.nan,'hj'])

df=pd.dataframe()

df['key1']=df['key1'].str.upper()

print(s.str.count('b'))

print(df)

df.columns=df.columns.str.upper()

print(df)

與python內建的str函式一直

strip()去除前面空格

rstrip()去除後面空格

去除中間空格可以使用replace(』 『,』 heik』,n=1),n=1表示只會替換第乙個

split()

rsplit() 順序與split相反

s.str.split(『,』)[0]第零行

s.str.split(『,』).str[0]

s.str.split(『,』).str.get(1) 第乙個元素

s.str.split(『,』,expand=true,n=1)

s=pd.series(['a','b','c','bbhello','123',np.nan,'hj'])

df=pd.dataframe()

print(s.str[0])

print(s.str[:2])

print(df['key2'].str[0])

merge(left, right, how=』inner』, on=none, left_on=none, right_on=none,left_index=false, right_index=false, sort=true,suffixes=(『_ x』, 『_ y』), copy=true, indicator=false)

on:指的是用於連線的列索引名稱。必須存在右右兩個dataframe物件中,如果沒有指定且其他引數也未指定則以兩個dataframe的列名交集做為連線鍵。

right_on:右則dataframe中用作 連線鍵的列名。

left_index:使用左則dataframe中的行索引做為連線鍵

right_index: 使用右則dataframe中的行索引做為連線鍵

how:資料融合的方法(合併方式)。

inner:預設取交集

outer:取並集

left:按照left為主匹配,資料缺失範圍nan

right:右邊為主

sort:預設為true,將合併的資料進行排序。在大多數情況下設定為false可以提高效能

left = pd.dataframe()

right = pd.dataframe()

result = pd.merge(left, right, on=['key1', 'key2'])

join(self, other, on=none, how=』left』, lsuffix=」, rsuffix=」,sort=false)

其中引數的意義與merge方法基本相同,只是join方法預設為左外連線how=left

1.預設按索引合併,可以合併相同或相似的索引,不管他們有沒有重疊列。

2.可以連線多個dataframe

3.可以連線除索引外的其他列

4.連線方式用引數how控制

5.通過lsuffix=」, rsuffix=」 區分相同列名的列

pandas學習筆記

import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...

pandas學習筆記

1 建立物件,瀏覽資料 建立物件,瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...

pandas學習筆記

1.series 類似numpy中的一維陣列,表示為索引 從0開始 和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....