pandas資料處理庫

1、dataframe屬性

屬性或方法

描述dataframe.index

dataframe的index（行標籤）

dataframe.columns、dataframe.columns.tolist()

dataframe的列標籤、將列名轉換為list結構

dataframe.dtypes

返回dataframe的資料型別

dataframe.select_dtypes(self[,include,exclude])

return a subset of the

dataframe.values

將dataframe中實際資料作為ndarray返回

dataframe.axes

返回乙個列，行軸標籤和列軸標籤作為唯一的成員

dataframe.ndim

資料維度大小，預設為2維

dataframe.size

dataframe中元素個數

dataframe.shape

返回表示dataframe的維度的元組

dataframe.empty

如果dataframe為空，返回true，任何軸的長度都為0

dataframe.memory_usage(self[,index,deep])

dataframe.t

轉置行和列

2、indexing、iteration

方法描述

dataframe.head(self,n)

返回開頭前n行，預設前5行

dataframe.tail(self,n)

返回最後n行，預設最後5行

dataframe.loc

使用column和index進行定位

dataframe.iloc

即index locate，按位置進行定位，引數是整型

dataframe.isin(self,values)

dataframe.where(self,cond[,other,...])

3、計算/描述性統計函式

函式描述

dataframe.abs()

絕對值dataframe.min()、dataframe.max()

最小值、最大值

dataframe.mean()

均值dataframe.median()

中位數dataframe.sum()、dataframe.prod()

和、乘積

dataframe.std()、dataframe.var()

標準差、方差

dataframe.count()

非空資料量

dataframe.cumsum()、dataframe.cumprod()

累計總和、累計乘積

dataframe.cummax()、dataframe.cummin()

累計最大值、累計最小值

dataframe.cov()

協方差，不包括na/null值

dataframe.corr()

計算相關係數，不包括na/null值

dataframe.corrwith()

計算相關係數，不包括na/null值

dataframe.describe()

描述性統計

dataframe.prod()

乘積dataframe.product()

乘積dataframe.rank()

排序dataframe.round()

四捨五入

dataframe.quantile()

返回給定分位數值

dataframe.nunique()

不同值dataframe.skew()

計算偏度

3、缺失資料處理

函式描述

dataframe.dropna()

刪除缺失值

dataframe.fillna()

使用指定方法填充na/nan值

dataframe.dropna(self, axis=0, how='any', thresh=none, subset=none, inplace=false) 引數：axis: 0 or index 刪除包含缺失值的行,1 or columns 刪除包含缺失值的列,預設0； how:any,all,預設any,any:只要含有na,刪除該行/列；all：只有該行/列均為na才刪除； thresh：指定行/列具有非na的數目，即至少有thresh個非na時才保留； subset:對特定的列進行缺失值刪除處理；

inplace:true修改原有的dataframe，預設false。

dataframe.fillna(self, value=none, method=none, axis=none, inplace=false, limit=none, downcast=none) 引數：value: 變數、字典、series，dataframe；用於填充填充缺失值，或指定為每個索引（對於series）或列（對於dataframe）的缺失值使用字典/series/dataframe的值填充； method: , 預設none， pad/ffill表示向後填充空值，backfill/bfill表示向前填充空值； axis: ； inplace: boolean, 預設為false； limit: int, 預設為none，如果指定了方法，則這是連續的nan值的前向/後向填充的最大數量。

downcast: dict, 預設none，字典中的項為型別向下轉換規則。

dataframe.replace(self, to_replace=none, value=none, inplace=false, limit=none, regex=false, method='pad')
引數：

4、reshaping, sorting, transposing

函式描述

dataframe.sort_values(by,axis=0,ascending=true,inplace=false)

按照值排序

dataframe.sort_index(axis=0,ascending=false,inplace=false)

按照索引排序

dataframe.reset_index(drop=true)

重置索引，刪除原索引

dataframe.pivot_table(index,columns,values,aggfunc="mean")

透視表

dataframe.sort_values(by,axis=0,ascending=true,inplace=false,kind="quicksort",na_position="last",ignore_index=false) 引數：by:str or list of str;如果axis=0,by="列名";如果axis=1,by="行名"； axis: 0 or index,1 or columns,預設為0，按照索引排序，即縱向排序，為1橫向排序； ascending:布林型，true公升序，false降序； inplace:布林型，是否用排序後的資料框替換現有的資料框； kind:排序方法，, 預設"quicksort"。 na_position:, 預設"last"，預設缺失值排在最後面 ignore_index:

return：dataframe,如果inplace=false，返回排序後的dataframe。

dataframe.sort_index(self,axis=0,level=none,ascending=true,inplace=false,kind="quicksort",na_position="last",sort_remaining=true, ignore_index: bool = false) 引數：axis: 0 按照行名排序，1按照列名排序； level：預設none，否則按照給定的level順序排列 ascending:布林型，true公升序，false降序； inplace:布林型，是否用排序後的資料框替原來有的資料框； kind:排序方法，, 預設"quicksort"。 na_position:, 預設"last"，預設缺失值排在最後 ignore_index:

return：dataframe,如果inplace=false，返回排序後的dataframe。

dataframe.pivot_table(self, values=none, index=none, columns=none, aggfunc='mean', fill_value=none, margins=false, dropna=true, margins_name='all', observed=false) → 'dataframe'
引數：

pandas資料處理庫

pandas 資料處理

pandas資料處理

Pandas資料處理

pandas資料處理庫

pandas 資料處理

pandas資料處理

Pandas資料處理

相關推薦