pandas基本操作及拼接

2021-10-13 13:00:48 字數 3268 閱讀 5902

二、pandas拼接操作

原教程鏈結,需要自取。

pandas是在numpy的基礎上開發的資料處理工具包,提供了快速、靈活的資料結構。

它適用於處理一下型別的資料:

pandas的主要資料結構:

1. 用值列表生成series

>>

> series = pd.series([1

,3,5

, np.nan,6,

8])>>

> series

01.0

13.0

25.0

3 nan

46.0

58.0

dtype: float64

2. 生成dataframe
in [5]

: dates = pd.date_range(

'20130101'

, periods=6)

in [6]

: dates

out[6]

: datetimeindex(

['2013-01-01'

,'2013-01-02'

,'2013-01-03'

,'2013-01-04'

,'2013-01-05'

,'2013-01-06'],

dtype=

'datetime64[ns]'

, freq=

'd')

in [7]

: df = pd.dataframe(np.random.randn(6,

4), index=dates, columns=

list

('abcd'))

in [8]

: df

out[8]

: a b c d

2013-01

-010.469112

-0.282863

-1.509059

-1.135632

2013-01

-021.212112

-0.173215

0.119209

-1.044236

2013-01

-03-0.861849

-2.104569

-0.494929

1.071804

2013-01

-040.721555

-0.706771

-1.039575

0.271860

2013-01

-05-0.424972

0.567020

0.276232

-1.087401

2013-01

-06-0.673690

0.113648

-1.478427

0.524988

in [9]

: df2 = pd.dataframe(

)in [10]

: df2

out[10]

: a b c d e f

01.0

2013-01

-021.03 test foo

11.0

2013-01

-021.03 train foo

21.0

2013-01

-021.03 test foo

31.0

2013-01

-021.03 train foo

3. 檢視資料
df.head(

)df.tail(

)# 顯示索引與列名

df.index

df.columns

df.describe(

)# 可以快速檢視資料的統計摘要:

4. 選擇資料
df[

'a']

df[0:

3]

# 用標籤選擇一行

df.loc[dates[0]

]# 用標籤選擇多列

df.loc[:,

['a'

,'b']]

# a, b兩列的所有行

# 用標籤切片

df.loc[

'20130102'

:'20130104',[

'a',

'b']

]

df.iloc[3]

# 第三行

df.iloc[3:

5,0:

2]# 4,5行、1,2列

5. 缺失值

pandas 主要用np.nan表示缺失資料。 計算時,預設不包含空值。

刪除所有含有缺失值的行:

df.dropna(how =

'any'

)

填充缺失值

df.fillna(value =

5)

提取nan值的布林掩碼

pd.isna(df)
6. 統計

一般情況下,運算時排除缺失值。

df.mean(

)# 預設是按列求

df.mean(1)

#按行求平均

呼叫方法

使用場景

備註result = df.concat([df1,df3], axis = 1)可用於兩個或多個df間行方向或列方向進行內聯或外聯拼接操作,預設行拼接,取並集

提供了引數(axis = 0 or 1)設定行/列拼接的方向

可用於df間行方向的拼接操作,預設

df.join(df2, how=』left』 )可用於df間列方向的拼接操作,預設左列拼接,how=』left』

支援左聯、右聯、內聯和外聯四種操作型別

result = pd.merge(df1, df2,how=『left』)可用於兩個df間列方向==(一般用join代替)==或行方向的拼接操作,預設列拼接,取交集(即:存在相同主鍵的df1和df2的列拼接)

支援左聯、右聯、內聯和外聯四種操作型別

Pandas的拼接操作

import numpy as np from pandas import dataframe,series import pandas as pd 0回顧numpy的級聯 練習 1.生成2個3 3的矩陣,對其分別進行兩個維度上的級聯 nd np.random.randint 0,10,size 3...

pandas的拼接操作

pandas的拼接分為兩種 合併 pd.merge def make df index,cols df pd.dataframe df.index index return df df1 make df 1 2,3 4,5 6 list abcdef df2 df1.copy display df1...

Pandas基本操作

常用技巧 1 讀取檔案 2 初步設定 最大顯示1000行 最大顯示20列 最大精度 3 去重 所有列相同為重複 k1相同為重複,保留最後乙個 預設保留第乙個 4 顯示當前路徑 5 jupyter下畫圖 6 計算運算時間 7 建立新變數 8 刪除乙個變數 9 刪除一行觀測 10 顯示前三行 11 顯示...