Pandas學習筆記 02 pandas基礎

第二章 pandas基礎

目錄2 基本資料結構

3 常用基本函式

4 視窗物件

read_csvread_tableread_excel

公共引數

header=none表示第一行不作為列名

index_col表示把某一列或幾列作為索引

usecols表示讀取的列，預設讀取所有的列

parse_dates表示需要轉化為時間的列

nrows表示讀取的資料行數。

對於read_table讀取txt，使用sep（正則）自定義分隔符，同時指定engine為python

to_csvto_excel

儲存時使用index=false去除索引

series一般由序列值data、索引index、儲存型別dtype、序列名稱name組成。

dataframe在series的基礎上增加列索引columns，.t可進行轉置。

獲取屬性：valuesindexdtypenameshapecolumns

3.1彙總函式

head, tail分別表示返回表或者序列的前n行和後n行，其中n預設為5。

info, describe分別返回表的資訊概況和表中數值列對應的主要統計量

3.2 特徵統計函式（聚合）

sum, mean, median, var, std, max, min：和、均值、中位數、無偏方差、樣本標準差、最大值、最小值。

quantile, count, idxmax/idxmin：分位數、非缺失值個數、最大/小值對應的索引

3.3 唯一值函式

unique：獲取唯一值列表

nunique：獲取唯一值個數

value_counts：獲取唯一值和出現頻數

drop_duplicates：刪除多列組合的重複值。

關鍵引數keep預設值為first，保留組合第乙個出現的所在行；last表示保留最後一次出現的所在行，false表示把所有重複組合所在的行剔除（只保留出現過一次的組合）。

duplicated返回是否為唯一值的布林列表，keep引數同上。

3.4 替換函式

對映替換：replace

直接傳入字典或雙列表

方向替換，method=ffill/bfill用前方值或後方值替換

正則替換，regex=true

邏輯替換：where和mask

where在傳入條件為false時進行替換，mask在傳入條件為true時進行替換

數值替換：round, abs, clip分別表示給定精度四捨五入、取絕對值和截斷

3.5 排序函式

sort_values：值排序，預設引數ascending=true為公升序

sort_index：索引排序，需要level引數指定索引層名稱或層號。

shift, diff, pct_change是一組類滑窗函式，分別表示前移、做差、增長率，公共引數為periods=n，可以為負值，預設為1，表示與前一位比較。功能可以用視窗大小為n+1的rolling方法等價代替。

.expanding表示擴張視窗，使用聚合函式會依次作用到逐步擴張的視窗上，類似cummax, cumsum, cumprod。

參考：joyful pandas教程

pandas學習筆記

import numpy as np import pandas as pd obj2 pd.series 4,7,5,3 index d b a c obj2 out 99 d 4 b 7 a 5 c 3 dtype int64 a b pd.series a bout 102 a 1 b 2 c...

pandas學習筆記

1 建立物件，瀏覽資料建立物件，瀏覽資料 import pandas as pd import numpy as np import matplotlib.pyplot as plt 建立series s pd.series 1,2,4,6,np.nan,9,10 index list abcde...

pandas學習筆記

1.series 類似numpy中的一維陣列,表示為索引從0開始和值。建立 import pandas as pd,numpy as np s1 pd.series np.arange 10 s2 pd.series 12 2,5 s3 pd.series 含有的屬性 s1.values s1....

Pandas學習筆記 02 pandas基礎

pandas學習筆記

pandas學習筆記

pandas學習筆記

相關推薦