第二章 pandas基礎
目錄2 基本資料結構
3 常用基本函式
4 視窗物件
read_csv
read_table
read_excel
公共引數
header=none
表示第一行不作為列名
index_col
表示把某一列或幾列作為索引
usecols
表示讀取的列,預設讀取所有的列
parse_dates
表示需要轉化為時間的列
nrows
表示讀取的資料行數。
對於read_table
讀取txt
,使用sep
(正則)自定義分隔符,同時指定engine
為python
to_csv
to_excel
儲存時使用index=false
去除索引
series
一般由序列值data
、索引index
、儲存型別dtype
、序列名稱name
組成。
dataframe
在series
的基礎上增加列索引columns
,.t
可進行轉置。
獲取屬性:values
index
dtype
name
shape
columns
3.1彙總函式
head, tail
分別表示返回表或者序列的前n
行和後n
行,其中n
預設為5。
info, describe
分別返回表的資訊概況和表中數值列對應的主要統計量
3.2 特徵統計函式(聚合)
sum, mean, median, var, std, max, min
:和、均值、中位數、無偏方差、樣本標準差、最大值、最小值。
quantile, count, idxmax/idxmin
:分位數、非缺失值個數、最大/小值對應的索引
3.3 唯一值函式
unique
:獲取唯一值列表
nunique
:獲取唯一值個數
value_counts
:獲取唯一值和出現頻數
drop_duplicates
:刪除多列組合的重複值。
關鍵引數keep
預設值為first
,保留組合第乙個出現的所在行;last
表示保留最後一次出現的所在行,false
表示把所有重複組合所在的行剔除(只保留出現過一次的組合)。
duplicated
返回是否為唯一值的布林列表,keep
引數同上。
3.4 替換函式
對映替換:replace
直接傳入字典或雙列表
方向替換,method=ffill/bfill
用前方值或後方值替換
正則替換,regex=true
邏輯替換:where
和mask
where
在傳入條件為false
時進行替換,mask
在傳入條件為true
時進行替換
數值替換:round, abs, clip
分別表示給定精度四捨五入、取絕對值和截斷
3.5 排序函式
sort_values
: 值排序,預設引數ascending=true
為公升序
sort_index
: 索引排序,需要level
引數指定索引層名稱或層號。
shift, diff, pct_change
是一組類滑窗函式,分別表示前移、做差、增長率,公共引數為periods=n
,可以為負值,預設為1,表示與前一位比較。功能可以用視窗大小為n+1
的rolling
方法等價代替。
.expanding
表示擴張視窗,使用聚合函式會依次作用到逐步擴張的視窗上,類似cummax, cumsum, cumprod
。
參考:joyful pandas教程
pandas學習筆記
import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...
pandas學習筆記
1 建立物件,瀏覽資料 建立物件,瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...
pandas學習筆記
1.series 類似numpy中的一維陣列,表示為索引 從0開始 和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....