Pandas學習筆記 04 分組GroupBy

2022-10-08 16:33:21 字數 1735 閱讀 5065

第四章 分組 總結

目錄2 聚合函式

3 變換和過濾

多維度列分組:groupby中傳入相應列名構成的列表

分組依據:列或列的子集、字典或series、函式、索引級別等

ngroups屬性:獲取分組個數

groups屬性:返回從組名對映到組索引列表的字典

size方法:統計每組元素個數

get_group方法:根據組的具體名稱獲取對應的行

聚合、變換和過濾,分別對應aggtransformfilter函式,分別返回標量、series型別和dataframe型別結果。

groupby物件內建聚合函式包括max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod等,均返回標量值。

agg函式優點:

同時使用多個函式

方法:用列表的形式把內建聚合函式對應的字串傳入

對特定的列使用特定的聚合函式

方法:通過構造字典傳入,以列名為鍵

使用自定義的聚合函式

直接對結果的列名在聚合前進行自定義命名

方法:將原函式位置改寫為元組,第乙個元素為新名稱,第二個元素為函式名。

注意:單個聚合,重新命名需要以列表形式傳入

變換函式的返回值為同長度的序列,最常用的內建變換函式是累計函式:cumcount/cumsum/cumprod/cummax/cummin

groupby物件的transform方法傳入自定義函式進行自定義變換,傳入值為資料來源的序列,返回的結果是行列索引與資料來源一致的dataframe。當返回乙個標量時,會觸發廣播機制廣播到整組。

過濾在分組中是對於組的過濾,而索引是對於行的過濾。

組過濾作為行過濾的推廣,指的是對乙個組的全體所在行進行統計,如果結果返回true則會被保留,false則該組會被過濾,最後把所有未被過濾的組對應的所在行拼接起來作為dataframe返回。

groupby物件的filter方法可以進行組篩選,其中自定義函式的輸入引數為資料來源構成的dataframe本身,只需保證自定義函式的返回為布林值。

不同函式返回值對應結果:

標量:結果為series,索引與agg的結果一致

series:結果為dataframe,行索引與標量情況一致,列索引為series的索引

dataframe:結果為dataframe,行索引最內層在每個組原先agg的結果索引上,再加一層返回的dataframe行索引,同時分組結果dataframe的列索引和返回的dataframe列索引一致。

資料科學04 pandas03 分組計算和索引

東陽的學習記錄,堅持就是勝利!類別資料 理解categorical data 連線和合併 詳見 pandas文件 分組計算三步曲 拆分 應用 合併 df pd.dataframe 根據 column 排序,輸出其最大的 n 行資料 deftop df,n 2,column data1 return ...

密碼學04 分組密碼模式

分組後逐個加密 加密 ci ek mi 解密 mi dk 1 ci 特點 缺點 要求資料的長度是密碼分組長度的整數倍容易暴露明文的資料模式重複的明文產生相同的密碼分組 以des為例,明文的長度必須是64位的整數倍,不足部分要特殊處理。特點 1.解決了ecb的安全缺陷可以讓重複的明文產生不同的密碼分組...

HTML學習筆記 四 分組元素

元素名稱說明p 表示段落 div沒有語義的塊級元素 blockquote 引自他處的大段內容 pre 與程式設計格式一樣 hr劃分主題,水平線 ul,ol 無序列表,有序列表 li用於ul,ol元素中的列表項 dl,dt,dd dl表示乙個列表區域範圍,上層列表項dt充當標題,下層列表項dd充當內容...