python中用於資料探索的庫主要是pandas和matplotlib,pandas提供了大量與資料探索相關的函式。這些統計特徵函式能反映出資料的整體分布,主要作為pandas的物件dataframe或series的方法出現。
sum():計算資料樣本的總和(按列計算)
mean():計算資料樣本的算術平均數
var():計算資料樣本的方差
std():計算資料樣本的標準差
ser.corr(method='pearson')
method引數為計算方法,支援pearson-預設選項、kendall以及spearman
s1.corr(s2, method='pearson')
從直觀上來看,協方差表示的是兩個變數總體誤差的期望。
如果兩個變數的變化趨勢一致,也就是說如果其中乙個大於自身的期望值時另外乙個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,即其中乙個變數大於自身的期望值時另外乙個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。
frame.cov()
frame為datafram,返回協方差矩陣。
s1.cov(s2)
s1,s2均為series,指定計算兩個series之間的協方差
skew():樣本值的偏度(三階矩)
kurt():樣本值的峰度(四階矩)
describe():給出樣本的基本描述(基本統計量如均值、標準差等)
Pandas 統計函式
統計方法有助於理解和分析資料的行為。現在我們將學習一些統計函式,可以將這些函式應用到pandas的物件上。系列,datframes和panel都有pct change 函式。此函式將每個元素與其前乙個元素進行比較,並計算變化百分比。import pandas as pd import numpy a...
Pandas 統計函式與apply
import numpy as np import pandas as pd from pandas import series,dataframe方法 說明count 非na值的數量 describe 針對series或各dataframe列計算匯 計 min max 計算最小值和最大值 argm...
Pandas 描述統計函式
在進行統計描述時,pandas對三個資料物件的軸引數規定如下 series 沒有軸引數 dataframe index axis 0,default columns axis 1 panel items axis 0 major axis 1,default minor axis 2 統計描述引數如...