pandas 常用統計方法

2021-08-20 11:51:05 字數 2065 閱讀 4686

pandas 物件有一些統計方法。它們大部分都屬於約簡和匯**計,用於從 series 中提取單個值,或從 dataframe 的行或列中提取乙個 series。

比如dataframe.mean(axis=0,skipna=true)方法,當資料集中存在 na 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 na,如果不想這樣,則可以通過skipna=false來禁用此功能:

>>> df

one  two

a1.40nan

b7.10-4.5

c   nan  nan

d0.75-1.3

[4rows x2columns]

>>> df.mean()

one3.083333

two-2.900000

dtype: float64

>>> df.mean(axis=1)

a1.400

b1.300

c      nan

d-0.275

dtype: float64

>>> df.mean(axis=1,skipna=false)

a      nan

b1.300

c      nan

d-0.275

dtype: float64

其他常用的統計方法有:

########################

******************************************

count

非 na 值的數量

describe

針對 series 或 df 的列計算匯**計

min , max

最小值和最大值

argmin , argmax

最小值和最大值的索引位置(整數)

idxmin , idxmax

最小值和最大值的索引值

quantile

樣本分位數(0 到 1)

sum求和

mean

均值median

中位數mad

根據均值計算平均絕對離差

var方差

std標準差

skew

樣本值的偏度(三階矩)

kurt

樣本值的峰度(四階矩)

cumsum

樣本值的累計和

cummin , cummax

樣本值的累計最大值和累計最小值

cumprod

樣本值的累計積

diff

計算一階差分(對時間序列很有用)

pct_change

計算百分數變化

pandas常用方法

import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime import redf pd.read csv path file.csv 引數 header none 用預設列名,0,1,...

pandas 常用方法

import pandas as pd pd.read csv filename,encoding utf 8 讀取csv pd.to csv filename 儲存檔案,filename為檔案路徑,可以是相對路徑or絕對路徑 pd.to csv filename,index 0 儲存到檔案時,不要...

pandas 常見的統計方法

pandas 常見的統計方法方法 說明count 非 na 值的數量 describe 針對 series 或 df 的列計算匯 計 min max 最小值和最大值 argmin argmax 最小值和最大值的索引位置 整數 idxmin idxmax 最小值和最大值的索引值 quantile 樣本...