對時間型別的資料分析的前提就是將原本為字串的時間轉換為標準時間
類名稱說明
timestamp
表示某個時間點
period
表示單個時間跨度,某個時間段
timedelta
不同的單位時間,而非具體的某個時間
datetimeindex
一組timestamp構成的index,可以用來作為series或者dataframe的索引
periodtimeindex
一組period構成的index,可以用來作為series或者dataframe的索引
timedeltaindex
一組timedelta構成的index,可以用來作為series或者dataframe的索引
用to_datatime函式轉換timestamp
還可以將資料單獨提取出來將其轉換為datatimeindex或者periodindex,轉換periodindex需要通過freq引數指定時間間隔。
引數名稱
說明data
array
freq
string,表示時間間隔頻率
start
接受string,表示時間資料的起始點
periods
需要生成的週期數目
endstring。表示生成時間規制的終結點
tztimezone,資料的時區
name
ing,string 指定datetimeindex的名字
timedelta類不僅可以使用正數還可以使用負數,能夠實現時間的算術運算。所以可以實現時間平移和相減
分組函式:df.groupby(by=none,axis=0,level=none,as_index=true,sort=true,group_key=true,squeeze=false)
引數名稱
說明by
axis
int,操作的軸向
level
int或索引名,標籤級別
as_index
bool值。聚合後的聚合標籤是否以dataframe輸出
sort
bool值。是否進行分組
squeeze
bool值。對返回資料進行降維
聚合:df.agg(func,axis=0)或者df.aggregate(func,axis=0)
可以使用agg方法一次求出當前資料的所有菜品的銷量的售價總和和均值
detail[["counts",'amounts'].agg([np.sum,np.mean]))
如果要對字段分開操作,則使用字典方法
detail.agg())
pd.pivot_table(data,values=none,index=none,columns=none,aggfunc='mean',margins=false,dropna=true)
引數名稱
說明data
dataframe,建立表的資料
value
字串,想要聚合的欄位名
index
int或string,行分組鍵
columns
string或list,列分組鍵
aggfunc
function。聚合函式
dropna
bool,刪除所有nan的值
pd.crosstab(index,columns,values=none,rownames=none,colnames=none...)
交叉透視表的引數和透視表引數保持一致,index,columns,value填入的是dataframe中的某一列
資料分析 pandas
pandas是乙個強大的python資料分析的工具包,它是基於numpy構建的,正因pandas的出現,讓python語言也成為使用最廣泛而且強大的資料分析環境之一。pandas的主要功能 具備對其功能的資料結構dataframe,series 整合時間序列功能 提供豐富的數 算和操作 靈活處理缺失...
python資料分析 Pandas
import pandas as pd series 可以看做乙個定長的有序字典。基本任意的一維資料都可以用來構造 series 物件 s pd.series 1,2,3.0,abc s1 pd.series data 1,3,5,7 index a b x y 通過下標獲取資料 s1 a seri...
資料分析之Pandas
from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...