二、pandas拼接操作
原教程鏈結,需要自取。
pandas是在numpy的基礎上開發的資料處理工具包,提供了快速、靈活的資料結構。
它適用於處理一下型別的資料:
pandas的主要資料結構:
1. 用值列表生成series
>>
> series = pd.series([1
,3,5
, np.nan,6,
8])>>
> series
01.0
13.0
25.0
3 nan
46.0
58.0
dtype: float64
2. 生成dataframein [5]
: dates = pd.date_range(
'20130101'
, periods=6)
in [6]
: dates
out[6]
: datetimeindex(
['2013-01-01'
,'2013-01-02'
,'2013-01-03'
,'2013-01-04'
,'2013-01-05'
,'2013-01-06'],
dtype=
'datetime64[ns]'
, freq=
'd')
in [7]
: df = pd.dataframe(np.random.randn(6,
4), index=dates, columns=
list
('abcd'))
in [8]
: df
out[8]
: a b c d
2013-01
-010.469112
-0.282863
-1.509059
-1.135632
2013-01
-021.212112
-0.173215
0.119209
-1.044236
2013-01
-03-0.861849
-2.104569
-0.494929
1.071804
2013-01
-040.721555
-0.706771
-1.039575
0.271860
2013-01
-05-0.424972
0.567020
0.276232
-1.087401
2013-01
-06-0.673690
0.113648
-1.478427
0.524988
in [9]
: df2 = pd.dataframe(
)in [10]
: df2
out[10]
: a b c d e f
01.0
2013-01
-021.03 test foo
11.0
2013-01
-021.03 train foo
21.0
2013-01
-021.03 test foo
31.0
2013-01
-021.03 train foo
3. 檢視資料df.head(
)df.tail(
)# 顯示索引與列名
df.index
df.columns
df.describe(
)# 可以快速檢視資料的統計摘要:
4. 選擇資料df[
'a']
df[0:
3]
# 用標籤選擇一行
df.loc[dates[0]
]# 用標籤選擇多列
df.loc[:,
['a'
,'b']]
# a, b兩列的所有行
# 用標籤切片
df.loc[
'20130102'
:'20130104',[
'a',
'b']
]
df.iloc[3]
# 第三行
df.iloc[3:
5,0:
2]# 4,5行、1,2列
5. 缺失值
pandas 主要用np.nan
表示缺失資料。 計算時,預設不包含空值。
刪除所有含有缺失值的行:
df.dropna(how =
'any'
)
填充缺失值
df.fillna(value =
5)
提取nan
值的布林掩碼
pd.isna(df)
6. 統計
一般情況下,運算時排除缺失值。
df.mean(
)# 預設是按列求
df.mean(1)
#按行求平均
呼叫方法
使用場景
備註result = df.concat([df1,df3], axis = 1)
可用於兩個或多個df間行方向或列方向進行內聯或外聯拼接操作,預設行拼接,取並集
提供了引數(axis = 0 or 1)設定行/列拼接的方向
可用於df間行方向的拼接操作,預設
df.join(df2, how=』left』 )
可用於df間列方向的拼接操作,預設左列拼接,how=』left』
支援左聯、右聯、內聯和外聯四種操作型別
result = pd.merge(df1, df2,how=『left』)
可用於兩個df間列方向==(一般用join代替)==或行方向的拼接操作,預設列拼接,取交集(即:存在相同主鍵的df1和df2的列拼接)
支援左聯、右聯、內聯和外聯四種操作型別
Pandas的拼接操作
import numpy as np from pandas import dataframe,series import pandas as pd 0回顧numpy的級聯 練習 1.生成2個3 3的矩陣,對其分別進行兩個維度上的級聯 nd np.random.randint 0,10,size 3...
pandas的拼接操作
pandas的拼接分為兩種 合併 pd.merge def make df index,cols df pd.dataframe df.index index return df df1 make df 1 2,3 4,5 6 list abcdef df2 df1.copy display df1...
Pandas基本操作
常用技巧 1 讀取檔案 2 初步設定 最大顯示1000行 最大顯示20列 最大精度 3 去重 所有列相同為重複 k1相同為重複,保留最後乙個 預設保留第乙個 4 顯示當前路徑 5 jupyter下畫圖 6 計算運算時間 7 建立新變數 8 刪除乙個變數 9 刪除一行觀測 10 顯示前三行 11 顯示...