Pandas學習筆記 04 分組GroupBy

第四章分組總結

目錄2 聚合函式

3 變換和過濾

多維度列分組：groupby中傳入相應列名構成的列表

分組依據：列或列的子集、字典或series、函式、索引級別等

ngroups屬性：獲取分組個數

groups屬性：返回從組名對映到組索引列表的字典

size方法：統計每組元素個數

get_group方法：根據組的具體名稱獲取對應的行

聚合、變換和過濾，分別對應agg、transform和filter函式，分別返回標量、series型別和dataframe型別結果。

groupby物件內建聚合函式包括max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod等，均返回標量值。

agg函式優點：

同時使用多個函式

方法：用列表的形式把內建聚合函式對應的字串傳入

對特定的列使用特定的聚合函式

方法：通過構造字典傳入，以列名為鍵

使用自定義的聚合函式

直接對結果的列名在聚合前進行自定義命名

方法：將原函式位置改寫為元組，第乙個元素為新名稱，第二個元素為函式名。

注意：單個聚合，重新命名需要以列表形式傳入

變換函式的返回值為同長度的序列，最常用的內建變換函式是累計函式：cumcount/cumsum/cumprod/cummax/cummin

groupby物件的transform方法傳入自定義函式進行自定義變換，傳入值為資料來源的序列，返回的結果是行列索引與資料來源一致的dataframe。當返回乙個標量時，會觸發廣播機制廣播到整組。

過濾在分組中是對於組的過濾，而索引是對於行的過濾。

組過濾作為行過濾的推廣，指的是對乙個組的全體所在行進行統計，如果結果返回true則會被保留，false則該組會被過濾，最後把所有未被過濾的組對應的所在行拼接起來作為dataframe返回。

groupby物件的filter方法可以進行組篩選，其中自定義函式的輸入引數為資料來源構成的dataframe本身，只需保證自定義函式的返回為布林值。

不同函式返回值對應結果：

標量：結果為series，索引與agg的結果一致

series：結果為dataframe，行索引與標量情況一致，列索引為series的索引

dataframe：結果為dataframe，行索引最內層在每個組原先agg的結果索引上，再加一層返回的dataframe行索引，同時分組結果dataframe的列索引和返回的dataframe列索引一致。