二、其他變形方法
三、啞變數與因子化
一般狀態下,資料在dataframe會以壓縮(stacked)狀態存放,兩個類別被疊在一列中,pivot函式可將某一列作為新的cols:
此外,pivot函式具有很強的侷限性,除了功能上較少之外,還不允許values**現重複的行列索引對(pair)
注意:更多的時候會選擇使用強大的pivot_table函式
pivot_table由於功能更多,速度上自然是比不上原來的pivot函式:
pandas中提供了各種選項,下面介紹常用引數:
1) aggfunc:對組內進行聚合統計,可傳入各類函式,預設為』mean』
2) margins:彙總邊際狀態
3)行、列、值都可以為多級
交叉表是一種特殊的透視表,典型的用途如分組統計
交叉表的功能也很強大(但目前還不支援多級分組),重要的引數有:
1) values和aggfunc:分組對某些資料進行聚合操作,這兩個引數必須成對出現
2) 除了邊際引數margins外,還引入了normalize引數,可選』all』,『index』,'columns』引數值
melt函式可以認為是pivot函式的逆操作,將unstacked狀態的資料,壓縮成stacked,使「寬」的dataframe變「窄」
melt函式中的id_vars表示需要保留的列,value_vars表示需要stack的一組列
1)stack:這是最基礎的變形函式,總共只有兩個引數:level和dropna
stack函式可以看做將橫向的索引放到縱向,因此功能類似與melt,引數level可指定變化的列索引是哪一層(或哪幾層,需要列表)
2)unstack:stack的逆函式,功能上類似於pivot_table
##1、dummy variable(啞變數)
該方法主要用於自然數編碼,並且缺失值會被記做-1,其中sort引數表示是否排序後賦值
Pandas基礎學習筆記
python data analysis library 或 pandas 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立的。pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法 impo...
Pandas學習筆記 02 pandas基礎
第二章 pandas基礎 目錄2 基本資料結構 3 常用基本函式 4 視窗物件 read csvread tableread excel 公共引數 header none表示第一行不作為列名 index col表示把某一列或幾列作為索引 usecols表示讀取的列,預設讀取所有的列 parse da...
pandas基礎學習筆記二
二 多級索引 三 索引設定 3.set index和reset index 4.rename axis和rename 四 常用索引型函式 五 重複元素處理 六 抽樣函式 第2章 索引.ipynb 寫在前面的,按照教程中的內容都在電腦上敲了一遍 但還是感覺雲裡霧裡的。知識點很多,也有很多經驗的傳授,回...