綜合使用
資料鏈結
統計每個國家的星巴克的數量
按照單字段聚合
# -
*- codeing = utf-8-
*-import pandas as pd
import numpy as np
df = pd.
read_csv
("../data/starbucks_store_worldwide.csv"
)# 按國家進行分組後會有很多列 然後取brand列進行統計,結果是各個國家的星巴克的數量
all_country_data_count = df.
groupby
(by=
"country")[
"brand"].
count()
print
(all_country_data_count )
統計美國的星巴克的數量# -
*- codeing = utf-8-
*-import pandas as pd
import numpy as np
df = pd.
read_csv
("../data/starbucks_store_worldwide.csv"
)# 按國家進行分組後會有很多列 然後取brand列進行統計,結果是各個國家的星巴克的數量
all_country_data = df.
groupby
(by=
"country")[
"brand"].
count()
# 統計美國的星巴克的數量
us_data_count= all_country_data[
"us"
]print
(us_data_count)
統計美國每個省份星巴克的數量# -
*- codeing = utf-8-
*-import pandas as pd
import numpy as np
df = pd.
read_csv
("../data/starbucks_store_worldwide.csv"
)# 選國家家為美國的,然後按照省份進行分組,取星巴克這一列,進行統計
us_province_data = df[df[
"country"]==
"us"].
groupby
(by=
"state/province")[
"brand"].
count()
print
(us_province_data)
統計美國ak省份星巴克的數量 法1
按照多欄位聚合
# -
*- codeing = utf-8-
*-import pandas as pd
import numpy as np
df = pd.
read_csv
("../data/starbucks_store_worldwide.csv"
)# 按照國家和國家中的省份進行分組 然後取品牌這一列進行統計
# 分組後形成的是series
all_country_count = df.
groupby
(by=
["country"
,"state/province])["brand"]
.count()
print
(all_country_count[
"us"][
"ak"
]) # 第一種索引方式
#print(all_country_count["us", "ak"]) # 第二種索引方式
統計美國ak省份星巴克的數量 法2# -
*- codeing = utf-8-
*-import pandas as pd
import numpy as np
df = pd.
read_csv
("../data/starbucks_store_worldwide.csv"
)# 按照國家和國家中的省份進行分組 然後取品牌這一列進行統計
# 分組後形成的是dataframe 索引是復合索引
all_country_count = df.
groupby([
"country"
,"state/province"])
[["brand"]]
.count()
print
(all_country_count.loc[
"us"
].loc[
"ak"
])
分組之後,往往會進行後續的處理,所以搭配一些函式介紹
資料建立連線 :從高階建立部分看
資料建立好後的部分內容如下
賣菜人乙個月的賣菜情況
item:菜名 salesman:賣菜人 weight:進菜重量 price:賣菜**
分組之後普通函式的使用
統計這乙個月,張大媽,李大媽,趙大爺,銷售了多少斤蔬菜
ret = df.
groupby([
'salesman'])
['weight'
]ret.
sum(
)
統計出攤次數 賣菜總重量 乙個月平均每天賣菜的重量(保留2位小數)
出攤次數舉例:例如張大媽賣菜 100 200 300 斤, 總共買了三次,所以出攤次數為3次
# 出攤次數 賣菜總重量 乙個月平均每天賣菜的重量(保留2位小數)
分組之後 agg() 函式的使用
統計每個銷售人員乙個月賣的3種菜的總重量和每種菜的平均**
pandas聚合運算,分組運算
分組運算,先根據一定規則拆分後的資料,然後對資料進行聚合運算,如前面見到的 mean sum 等就是聚合的例子。聚合時,拆分後的第乙個索引指定的資料都會依次傳給聚合函式進行運算。最後再把運算結果合併起來,生成最終結果。先生成乙個dataframe 用key1的索引分類再求平均 df.groupby ...
pandas資料分組和聚合操作
python for data analysis dataframe可以在其行 axis 0 或列 axis 1 上進行分組。然後,將乙個函式應用到各個分組並產生新值。最後,所有這些函式的執行結果會被合併到最終的結果物件中去。groupby的size方法可以返回乙個含有分組大小的series。for...
pandas 高階處理 分組與聚合
分組與聚合通常是分析資料的一種方式,通常與一些統計函式一起使用,檢視資料的分組情況 想一想其實剛才的交叉表與透視表也有分組的功能,所以算是分組的一種形式,只不過他們主要是計算次數或者計算比例!看其中的效果 案例 不同顏色的不同筆的 資料 col pd.dataframe color object p...