資料聚合是資料處理的最後一步,通常是要使每乙個陣列生成乙個單一的數值。
資料分類處理:
1.資料分類處理的核心: groupby()函式
匯入模組:
import pandas as pd
import numpy as np
from pandas import series,dataframe
生成假資料
df = dataframe()
df["sailer"] = df["sailer"].map()
df["item"] = df["item"].map()
def convert(x):
return x-x%10
df["weight"] = df["weight"].map(convert)
df如:
對資料進行分組,聚合操作
根據item進行分組,然後求出各個菜品的平均**
表現形式如上邊,資料格式為series
然後在根據sailer和item進行分類。
ret = df.groupby(by = ["sailer","item"])[["price"]].mean() #price值變成dataframe二維數如下圖:
ret.add_suffix("_mean") #給列新增字尾 add_prefix()新增字首
根據條件進行分組,然後自定義方法展示資料:如下
ret2 = df.groupby(by = ["sailer","item"])
def count(x):
return (np.round(x.mean(),1),x.min(),x.max()) #numpy中有round()方法是將小數四捨五入到給定的小數字數
ret2.agg(count)
aggregate()或agg()是指在指定軸上使用乙個或多個操作進行聚合。
分組後對幾個列新增不同的聚合對映關係
如下:對price求平均值,對重量求和
分組後使用透視表對資料進行聚合操作
pd.pivot_table(df,values=["sailer","weight"],index = ["sailer","item"],aggfunc =)
如下:對price、weight分別進行求平均值和最大值操作。
#因為min,mean,median等聚合函式在numpy定義了,所以,呼叫聚合函式得去numpy中呼叫
# transform原來的資料有多長,現在的資料就有多長
# 有利於對和原來的資料進行合併。
使用transform對資料進行分組聚合操作
Pandas中的資料聚合方法
資料聚合,一般都是指對分組中的資料執行某些操作,比如求平均值 求最大值等,並且操作後得到乙個結果集,這些實現聚合的操作稱為聚合方法。pandas中提供了用做聚合操作的agg 方法。一 使用內建統計方法聚合資料 前面已經介紹過pandas的統計方法,比如用於獲取最大值和最小值的max 和min 這些方...
pandas 分組聚合
綜合使用 資料鏈結 統計每個國家的星巴克的數量 按照單字段聚合 codeing utf 8 import pandas as pd import numpy as np df pd.read csv data starbucks store worldwide.csv 按國家進行分組後會有很多列 然...
pandas 聚合函式
將對一列進行計算返回乙個值 方法描述 series.all axis,bool only,skipna,level 是否全為true series.any axis,bool only,skipna,level 是否有乙個為true series.corr other method,min peri...