第四章 分組 總結
目錄2 聚合函式
3 變換和過濾
多維度列分組:groupby
中傳入相應列名構成的列表
分組依據:列或列的子集、字典或series
、函式、索引級別等
ngroups
屬性:獲取分組個數
groups
屬性:返回從組名對映到組索引列表的字典
size
方法:統計每組元素個數
get_group
方法:根據組的具體名稱獲取對應的行
聚合、變換和過濾,分別對應agg
、transform
和filter
函式,分別返回標量、series
型別和dataframe
型別結果。
groupby
物件內建聚合函式包括max/min/mean/median/count/all/any/idxmax/idxmin/mad/nunique/skew/quantile/sum/std/var/sem/size/prod
等,均返回標量值。
agg
函式優點:
同時使用多個函式
方法:用列表的形式把內建聚合函式對應的字串傳入
對特定的列使用特定的聚合函式
方法:通過構造字典傳入,以列名為鍵
使用自定義的聚合函式
直接對結果的列名在聚合前進行自定義命名
方法:將原函式位置改寫為元組,第乙個元素為新名稱,第二個元素為函式名。
注意:單個聚合,重新命名需要以列表形式傳入
變換函式的返回值為同長度的序列,最常用的內建變換函式是累計函式:cumcount/cumsum/cumprod/cummax/cummin
groupby
物件的transform
方法傳入自定義函式進行自定義變換,傳入值為資料來源的序列,返回的結果是行列索引與資料來源一致的dataframe
。當返回乙個標量時,會觸發廣播機制廣播到整組。
過濾在分組中是對於組的過濾,而索引是對於行的過濾。
組過濾作為行過濾的推廣,指的是對乙個組的全體所在行進行統計,如果結果返回true
則會被保留,false
則該組會被過濾,最後把所有未被過濾的組對應的所在行拼接起來作為dataframe
返回。
groupby
物件的filter
方法可以進行組篩選,其中自定義函式的輸入引數為資料來源構成的dataframe
本身,只需保證自定義函式的返回為布林值。
不同函式返回值對應結果:
標量:結果為series
,索引與agg
的結果一致
series
:結果為dataframe
,行索引與標量情況一致,列索引為series
的索引
dataframe
:結果為dataframe
,行索引最內層在每個組原先agg
的結果索引上,再加一層返回的dataframe
行索引,同時分組結果dataframe
的列索引和返回的dataframe
列索引一致。
資料科學04 pandas03 分組計算和索引
東陽的學習記錄,堅持就是勝利!類別資料 理解categorical data 連線和合併 詳見 pandas文件 分組計算三步曲 拆分 應用 合併 df pd.dataframe 根據 column 排序,輸出其最大的 n 行資料 deftop df,n 2,column data1 return ...
密碼學04 分組密碼模式
分組後逐個加密 加密 ci ek mi 解密 mi dk 1 ci 特點 缺點 要求資料的長度是密碼分組長度的整數倍容易暴露明文的資料模式重複的明文產生相同的密碼分組 以des為例,明文的長度必須是64位的整數倍,不足部分要特殊處理。特點 1.解決了ecb的安全缺陷可以讓重複的明文產生不同的密碼分組...
HTML學習筆記 四 分組元素
元素名稱說明p 表示段落 div沒有語義的塊級元素 blockquote 引自他處的大段內容 pre 與程式設計格式一樣 hr劃分主題,水平線 ul,ol 無序列表,有序列表 li用於ul,ol元素中的列表項 dl,dt,dd dl表示乙個列表區域範圍,上層列表項dt充當標題,下層列表項dd充當內容...