python模組 pandas 熊貓模組

2021-10-05 20:44:49 字數 2793 閱讀 5283

series

類似於一維陣列物件,類似於有的字典。

資料列表series

s1 = pd.series([1

,'a',5

,7,999])

print

(s1)01

1 a25

374999

dtype:

object

使用字典series

sdata=

s3=pd.series(sdata)

print

(s3)

a 35000

b 72000

c 16000

d 5000

dtype: int64

dataframe**型資料結構

data=

df = pd.dataframe(data)

state year pop

0 ohio 2000

1.51 ohio 2001

1.72 ohio 2002

3.63 nevada 2001

2.44 nevada 2002

2.9

讀取csv、txt檔案 -->

read_csv() 讀取xlsx檔案 -->

read_excel() 讀取mysql資料庫 -->

read_sql() 從網頁讀取table -->

read_html()

檢視類功能

dataframe() 建立乙個dataframe物件

df.values 返回ndarray型別的物件

df.shape 返回行列數

df.index 獲取行索引

df.set_index 設定索引

df.reset_index 重制索引

df.columns 獲取列索引

df.rename 重新設定列名

df.dtypes 檢視每列資料型別

df.axes 獲取行及列索引

df.t 行與列對調

df.info() 列印dataframe物件的資訊

df.head(i) 顯示前 i 行資料

df.tail(i) 顯示後 i 行資料

栗子:import pandas as pd

fpath = 「./datas/read_test.csv.txt」

df = pd.read_csv(fpath)

#返回所有資訊

print(df)

#返回所有資訊以陣列形式

print(df.values)

#返回行數和列數

print(df.shape)

#返回行列資訊

#rangeindex(start=0, stop=12, step=1)

#prov isp pv uv

#date

print(df.index)

#把預設索引設定為『date』替換

print(df.set_index(『date』))

print(df.values)

print(df.reset_index(inplace=true,drop=true))

#獲取行索引

print(df.columns)

df2=df

df2.columns=[『a』,『b』,『c』,『d』,『e』]

print(df2)

df2.rename(columns=,inplace=true)

print(df2)

#型別print(df2.dtypes)

#行列都顯示

print(df2.axes)

#旋轉print(df2.t)

#檢視開頭幾行資料

print(df2.head())

#檢視末尾幾行資料

print(df2.tail())

計算類功能

df.count() # 返回每一列中的非空值的個數

df.value_counts() #按值計數

df.unique() 唯一去從

df.describe() 檢視資料按列的統計資訊

df.sum() # 返回每一列的和, 無法計算返回空, 下同

df.sum(numeric_only=true) # numeric_only=true代表只計算數字型元素, 下同

df.max() # 返回每一列的最大值

df.min() # 返回每一列的最小值

df.argmax() # 返回最大值所在的自動索引位置

df.argmin() # 返回最小值所在的自動索引位置

df.idxmax() # 返回最大值所在的自定義索引位置

df.idxmin() # 返回最小值所在的自定義索引位置

df.mean() # 返回每一列的均值

df.median() # 返回每一列的中位數

df.var() # 返回每一列的方差

df.std() # 返回每一列的標準差

df.isnull() # 檢查df中空值, nan為true, 否則false, 返回乙個布林陣列

df.notnull() # 檢查df中空值, 非nan為true, 否則false, 返回乙個布林陣列

資料的合併

批量合併相同格式的excel、給dataframe新增行、給dataframe新增列

Python中的Pandas模組

目錄 pandas series 序列的建立 序列的讀取 dataframe dataframe的建立 dataframe資料的讀取 panel panel的建立 pandas python data analysis library 是基於numpy 的一種工具,該工具是為了解決資料分析任務而建立...

python 的pandas模組學習

最近程式設計需要用到pandas包,今天就簡單分享一下自己的學習心得。分享的內容主要是pandas資料的調取。比如我們要匯入乙個資料 可以使用以下 匯入資料 在pd.read table函式中間可以設定分隔符,行名字 列名等等。具體的函式大家有興趣可以自己搜尋。匯入資料之後我們要對資料進行行資料提取...

Python資料處理 Pandas模組使用(三)

資料 載入資料 pandas提供了一些將 型資料讀取為dataframe物件的函式,其中用的比較多的是read csv和read table,引數說明如下 引數說明 path 表示檔案位置 url 檔案型物件的字串 sep或delimiter 用於將行中的各欄位進行拆分的字串或正規表示式 head ...