1、dataframe屬性
屬性或方法
描述dataframe.index
dataframe的index(行標籤)
dataframe.columns、dataframe.columns.tolist()
dataframe的列標籤、將列名轉換為list結構
dataframe.dtypes
返回dataframe的資料型別
dataframe.select_dtypes(self[,include,exclude])
return a subset of the
dataframe.values
將dataframe中實際資料作為ndarray返回
dataframe.axes
返回乙個列,行軸標籤和列軸標籤作為唯一的成員
dataframe.ndim
資料維度大小,預設為2維
dataframe.size
dataframe中元素個數
dataframe.shape
返回表示dataframe的維度的元組
dataframe.empty
如果dataframe為空,返回true,任何軸的長度都為0
dataframe.memory_usage(self[,index,deep])
dataframe.t
轉置行和列
2、indexing、iteration
方法描述
dataframe.head(self,n)
返回開頭前n行,預設前5行
dataframe.tail(self,n)
返回最後n行,預設最後5行
dataframe.loc
使用column和index進行定位
dataframe.iloc
即index locate,按位置進行定位,引數是整型
dataframe.isin(self,values)
dataframe.where(self,cond[,other,...])
3、計算/描述性統計函式
函式描述
dataframe.abs()
絕對值dataframe.min()、dataframe.max()
最小值、最大值
dataframe.mean()
均值dataframe.median()
中位數dataframe.sum()、dataframe.prod()
和、乘積
dataframe.std()、dataframe.var()
標準差、方差
dataframe.count()
非空資料量
dataframe.cumsum()、dataframe.cumprod()
累計總和、累計乘積
dataframe.cummax()、dataframe.cummin()
累計最大值、累計最小值
dataframe.cov()
協方差,不包括na/null值
dataframe.corr()
計算相關係數,不包括na/null值
dataframe.corrwith()
計算相關係數,不包括na/null值
dataframe.describe()
描述性統計
dataframe.prod()
乘積dataframe.product()
乘積dataframe.rank()
排序dataframe.round()
四捨五入
dataframe.quantile()
返回給定分位數值
dataframe.nunique()
不同值dataframe.skew()
計算偏度
3、缺失資料處理
函式描述
dataframe.dropna()
刪除缺失值
dataframe.fillna()
使用指定方法填充na/nan值
dataframe.dropna(self, axis=0, how='any', thresh=none, subset=none, inplace=false)
引數:axis: 0 or index 刪除包含缺失值的行,1 or columns 刪除包含缺失值的列,預設0;
how:any,all,預設any,any:只要含有na,刪除該行/列;all:只有該行/列均為na才刪除;
thresh:指定行/列具有非na的數目,即至少有thresh個非na時才保留;
subset:對特定的列進行缺失值刪除處理;
inplace:true修改原有的dataframe,預設false。
dataframe.fillna(self, value=none, method=none, axis=none, inplace=false, limit=none, downcast=none)
引數:value: 變數、字典、series,dataframe;用於填充填充缺失值,或指定為每個索引(對於series)或列(對於dataframe)的缺失值使用字典/series/dataframe的值填充;
method: , 預設none, pad/ffill表示向後填充空值,backfill/bfill表示向前填充空值;
axis: ;
inplace: boolean, 預設為false;
limit: int, 預設為none,如果指定了方法,則這是連續的nan值的前向/後向填充的最大數量。
downcast: dict, 預設none, 字典中的項為型別向下轉換規則。
dataframe.replace(self, to_replace=none, value=none, inplace=false, limit=none, regex=false, method='pad')
引數:
4、reshaping, sorting, transposing
函式描述
dataframe.sort_values(by,axis=0,ascending=true,inplace=false)
按照值排序
dataframe.sort_index(axis=0,ascending=false,inplace=false)
按照索引排序
dataframe.reset_index(drop=true)
重置索引,刪除原索引
dataframe.pivot_table(index,columns,values,aggfunc="mean")
透視表
dataframe.sort_values(by,axis=0,ascending=true,inplace=false,kind="quicksort",na_position="last",ignore_index=false)
引數:by:str or list of str;如果axis=0,by="列名";如果axis=1,by="行名";
axis: 0 or index,1 or columns,預設為0,按照索引排序,即縱向排序,為1橫向排序;
ascending:布林型,true公升序,false降序;
inplace:布林型,是否用排序後的資料框替換現有的資料框;
kind:排序方法,, 預設"quicksort"。
na_position:, 預設"last",預設缺失值排在最後面
ignore_index:
return:dataframe,如果inplace=false,返回排序後的dataframe。
dataframe.sort_index(self,axis=0,level=none,ascending=true,inplace=false,kind="quicksort",na_position="last",sort_remaining=true, ignore_index: bool = false)
引數:axis: 0 按照行名排序,1按照列名排序;
level:預設none,否則按照給定的level順序排列
ascending:布林型,true公升序,false降序;
inplace:布林型,是否用排序後的資料框替原來有的資料框;
kind:排序方法,, 預設"quicksort"。
na_position:, 預設"last",預設缺失值排在最後
ignore_index:
return:dataframe,如果inplace=false,返回排序後的dataframe。
dataframe.pivot_table(self, values=none, index=none, columns=none, aggfunc='mean', fill_value=none, margins=false, dropna=true, margins_name='all', observed=false) → 'dataframe'
引數:
pandas 資料處理
pandas中資料可以分為series,dataframe,panel分別表示一維至三維資料。其中在構造時,index表示行名,columns表示列名 構造方式 s pd.series data index index s pd series np random randn 5 index a b ...
pandas資料處理
dataframe.duplicated subset none,keep first 判斷dataframe中的資料是否有重複 必須一行中所有資料都重複才算重複,只能判斷行,不能判斷列 返回series dataframe.drop duplicates subset none,keep firs...
Pandas資料處理
資料處理 pandas from sklearn.preprocessing import minmaxscaler data 1,2 0.5,6 0.10 1,18 將 numpy 轉換成 pd 表 pd.dataframe data 歸一化 0,1 之間 scaler minmaxscaler ...