1 concat
concat函式是在pandas底下的方法,可以將資料根據不同的軸作簡單的融合12
pd.concat(objs, axis=0, join='outer', join_axes=none, ignore_index=false,
keys=none, levels=none, names=none, verify_integrity=false)12
引數說明
objs: series,dataframe或者是panel構成的序列lsit
join:連線的方式 inner,或者outer,如果join_axes沒指定則是使用index來join
keys:用於標識資料來自哪個dataframe
其他一些引數不常用,用的時候再補上說明。
result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])
2.reset_index
經常在使用concat合併資料時,需要使用reset_index來更新index,不然可能後繼資料處理會
有異想不到的異常
3.dataframe.drop_duplicates(subset=none, keep='first', inplace=false)
引數這個drop_duplicates方法是對dataframe格式的資料,去除特定列下面的重複行。返回dataframe格式的資料。
subset : column label or sequence of labels, optional
用來指定特定的列,預設所有列
keep : , default 『first』
刪除重複項並保留第一次出現的項
inplace : boolean, default false
是直接在原來資料上修改還是保留乙個副本
使用result = result.reset_index(drop=true)來改變index就可以了,
4.value_counts
value_counts()是一種檢視**某列中有多少個不同值的快捷方法,並計算每個不同值有在該列中有多少重複值。
value_counts()是series擁有的方法,一般在dataframe中使用時,需要指定對哪一列或行使用
df['sector name'].value_counts()
5.pivot_table
pivot_table(data, values=none, index=none, columns=none,aggfunc='mean', fill_value=none, margins=false, dropna=true, margins_name='all')
pivot_table有四個最重要的引數index、values、columns、aggfunc,本文以這四個引數為中心講解pivot操作是如何進行。
index
每個pivot_table必須擁有乙個index,如果想檢視哈登對陣每個隊伍的得分,首先我們將對手設定為index:
pd.pivot_table(df,index=[u'對手'])
values
通過上面的操作,我們獲取了james harden在對陣對手時的所有資料,而values可以對需要的計算資料進行篩選,如果我們只需要james harden在主客場和不同勝負情況下的得分、籃板與助攻三項資料:
pd.pivot_table(df,index=[u'主客場',u'勝負'],values=[u'得分',u'助攻',u'籃板'])
aggfunc
aggfunc引數可以設定我們對資料聚合時進行的函式操作。
當我們未設定aggfunc時,它預設aggfunc='mean'計算均值。我們還想要獲得james harden在主客場和不同勝負情況下的總得分、總籃板、總助攻時:
pd.pivot_table(df,index=[u'主客場',u'勝負'],values=[u'得分',u'助攻',u'籃板'],aggfunc=[np.sum,np.mean])
columns
columns類似index可以設定列層次字段,它不是乙個必要引數,作為一種分割資料的可選方式。
#fill_value填充空值,margins=true進行彙總
pd.pivot_table(df,index=[u'主客場'],columns=[u'對手'],values=[u'得分'],aggfunc=[np.sum],fill_value=0,margins=1)
pandas中apply 函式的用法
下面是 例子 import pandas as pd import datetime 用來計算日期差的包 def datainterval data1,data2 d1 datetime.datetime.strptime data1,y m d d2 datetime.datetime.strpt...
C find函式相關用法
c 中stl裡提供了許多字串操作的函式,下面是字串查詢方面的部分函式用法簡介 1.find 查詢第一次出現的目標字串 include includeusing namespace std int main 其中find first of 也可以約定初始查詢的位置 s1.find first of s...
pandas 相關係數函式corr
a np.arange 1,10 reshape 3,3 data dataframe a,index a b c columns one two three print data one two three a 1 2 3 b 4 5 6 c 7 8 9 計算第一列和第二列的相關係數 print ...