Pandas常用函式

2021-08-22 14:42:14 字數 1132 閱讀 6501

count

非 na 值的數量

describe

針對 series 或 df 的列計算匯**計

min , max

最小值和最大值

argmin , argmax

最小值和最大值的索引位置(整數)

idxmin , idxmax

最小值和最大值的索引值

quantile

樣本分位數(0 到 1)

sum求和

mean

均值median

中位數mad

根據均值計算平均絕對離差

var方差

std標準差

skew

樣本值的偏度(三階矩)

kurt

樣本值的峰度(四階矩)

cumsum

樣本值的累計和

cummin , cummax

樣本值的累計最大值和累計最小值

cumprod

樣本值的累計積

diff

計算一階差分(對時間序列很有用)

pct_change

計算百分數變化

(1).fillna()會填充nan資料,返回填充後的結果

(2)pddata["a"].unique()  特徵a的值出現的set——唯一值

(3).loc選取指定列進行操作——df.loc[行標籤,列標籤]

(4).iloc函式——只能通過行號索引:df.iloc[0:4]它是基於索引位來選取資料集,0:4就是選取 0,1,2,3這四行

(5)作圖

from pandas.tools.plotting import scatter_matrix(混淆散點圖)

scatter_matrix(含有n個特徵的資料x,s=100, alpha=1, c=colors[index], figsize=(10,10))

例如:scatter_matrix(beer[["calories","sodium","alcohol","cost"]],s=100, alpha=1, c=colors[beer["cluster"]], figsize=(16,16))

pandas 常用函式

本文翻譯自文章 pandas cheat sheet python for data science 同時新增了部分註解。對於資料科學家,無論是資料分析還是資料探勘來說,pandas是乙個非常重要的python包。它不僅提供了很多方法,使得資料處理非常簡單,同時在資料處理速度上也做了很多優化,使得和...

pandas常用函式

pd.read csv filename 從csv檔案匯入資料 pd.read table filename 從限定分隔符的文字檔案匯入資料 pd.read excel filename 從excel檔案匯入資料 pd.read sql query,connection object 從sql表 庫...

pandas 常用函式

讀寫csv檔案 寫入 df.to csv filename 讀取 pd.read csv filename,header 0 保留列屬性,header none不讀列屬性 缺失值處理 去掉包含缺失值的行 df.dropna how any 對缺失值進行填充 df.fillna value 5 選擇行...