pandas 物件有一些統計方法。它們大部分都屬於約簡和匯**計,用於從 series 中提取單個值,或從 dataframe 的行或列中提取乙個 series。
比如dataframe.mean(axis=0,skipna=true)
方法,當資料集中存在 na 值時,這些值會被簡單跳過,除非整個切片(行或列)全是 na,如果不想這樣,則可以通過skipna=false
來禁用此功能:
>>> df
one two
a
1.40
nan
b
7.10
-
4.5
c nan nan
d
0.75
-
1.3
[
4
rows x
2
columns]
>>> df.mean()
one
3.083333
two
-
2.900000
dtype: float64
>>> df.mean(axis
=
1
)
a
1.400
b
1.300
c nan
d
-
0.275
dtype: float64
>>> df.mean(axis
=
1
,skipna
=
false
)
a nan
b
1.300
c nan
d
-
0.275
dtype: float64
其他常用的統計方法有:
########################
******************************************
count
非 na 值的數量
describe
針對 series 或 df 的列計算匯**計
min , max
最小值和最大值
argmin , argmax
最小值和最大值的索引位置(整數)
idxmin , idxmax
最小值和最大值的索引值
quantile
樣本分位數(0 到 1)
sum求和
mean
均值median
中位數mad
根據均值計算平均絕對離差
var方差
std標準差
skew
樣本值的偏度(三階矩)
kurt
樣本值的峰度(四階矩)
cumsum
樣本值的累計和
cummin , cummax
樣本值的累計最大值和累計最小值
cumprod
樣本值的累計積
diff
計算一階差分(對時間序列很有用)
pct_change
計算百分數變化
pandas常用方法
import pandas as pd import numpy as np import matplotlib.pyplot as plt import datetime import redf pd.read csv path file.csv 引數 header none 用預設列名,0,1,...
pandas 常用方法
import pandas as pd pd.read csv filename,encoding utf 8 讀取csv pd.to csv filename 儲存檔案,filename為檔案路徑,可以是相對路徑or絕對路徑 pd.to csv filename,index 0 儲存到檔案時,不要...
pandas 常見的統計方法
pandas 常見的統計方法方法 說明count 非 na 值的數量 describe 針對 series 或 df 的列計算匯 計 min max 最小值和最大值 argmin argmax 最小值和最大值的索引位置 整數 idxmin idxmax 最小值和最大值的索引值 quantile 樣本...