Pandas相關函式用法

2021-09-12 03:24:28 字數 2205 閱讀 8286

1 concat

concat函式是在pandas底下的方法,可以將資料根據不同的軸作簡單的融合12

pd.concat(objs, axis=0, join='outer', join_axes=none, ignore_index=false,

keys=none, levels=none, names=none, verify_integrity=false)12

引數說明

objs: series,dataframe或者是panel構成的序列lsit

join:連線的方式 inner,或者outer,如果join_axes沒指定則是使用index來join

keys:用於標識資料來自哪個dataframe

其他一些引數不常用,用的時候再補上說明。

result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])

2.reset_index

經常在使用concat合併資料時,需要使用reset_index來更新index,不然可能後繼資料處理會

有異想不到的異常

3.dataframe.drop_duplicates(subset=none, keep='first', inplace=false)

引數這個drop_duplicates方法是對dataframe格式的資料,去除特定列下面的重複行。返回dataframe格式的資料。

subset : column label or sequence of labels, optional

用來指定特定的列,預設所有列

keep : , default 『first』

刪除重複項並保留第一次出現的項

inplace : boolean, default false

是直接在原來資料上修改還是保留乙個副本

使用result = result.reset_index(drop=true)來改變index就可以了,

4.value_counts

value_counts()是一種檢視**某列中有多少個不同值的快捷方法,並計算每個不同值有在該列中有多少重複值。

value_counts()是series擁有的方法,一般在dataframe中使用時,需要指定對哪一列或行使用

df['sector name'].value_counts()

5.pivot_table

pivot_table(data, values=none, index=none, columns=none,aggfunc='mean', fill_value=none, margins=false, dropna=true, margins_name='all')

pivot_table有四個最重要的引數index、values、columns、aggfunc,本文以這四個引數為中心講解pivot操作是如何進行。

index

每個pivot_table必須擁有乙個index,如果想檢視哈登對陣每個隊伍的得分,首先我們將對手設定為index:

pd.pivot_table(df,index=[u'對手'])

values

通過上面的操作,我們獲取了james harden在對陣對手時的所有資料,而values可以對需要的計算資料進行篩選,如果我們只需要james harden在主客場和不同勝負情況下的得分、籃板與助攻三項資料:

pd.pivot_table(df,index=[u'主客場',u'勝負'],values=[u'得分',u'助攻',u'籃板'])

aggfunc

aggfunc引數可以設定我們對資料聚合時進行的函式操作。

當我們未設定aggfunc時,它預設aggfunc='mean'計算均值。我們還想要獲得james harden在主客場和不同勝負情況下的總得分、總籃板、總助攻時:

pd.pivot_table(df,index=[u'主客場',u'勝負'],values=[u'得分',u'助攻',u'籃板'],aggfunc=[np.sum,np.mean])

columns

columns類似index可以設定列層次字段,它不是乙個必要引數,作為一種分割資料的可選方式。

#fill_value填充空值,margins=true進行彙總

pd.pivot_table(df,index=[u'主客場'],columns=[u'對手'],values=[u'得分'],aggfunc=[np.sum],fill_value=0,margins=1)

pandas中apply 函式的用法

下面是 例子 import pandas as pd import datetime 用來計算日期差的包 def datainterval data1,data2 d1 datetime.datetime.strptime data1,y m d d2 datetime.datetime.strpt...

C find函式相關用法

c 中stl裡提供了許多字串操作的函式,下面是字串查詢方面的部分函式用法簡介 1.find 查詢第一次出現的目標字串 include includeusing namespace std int main 其中find first of 也可以約定初始查詢的位置 s1.find first of s...

pandas 相關係數函式corr

a np.arange 1,10 reshape 3,3 data dataframe a,index a b c columns one two three print data one two three a 1 2 3 b 4 5 6 c 7 8 9 計算第一列和第二列的相關係數 print ...