資料分析入門 pandas之合併函式merge

2022-02-11 19:40:07 字數 1605 閱讀 3139

merge有點類似sql中的join,可以將不同資料集按照某些字段進行合併,得到新的資料集

1.引數一覽表:

2.一對一連線:預設情況下,會按照相同欄位的進行連線

例如有相同欄位emp的兩個df,merge的時候就會根據emp進行連線,且根據引數知道,預設是內連線:

使用預設的不是很明了,通常情況下,我們推薦使用on明確連線條件,這和sql裡寫on是類似的:

3.多對一合併

4.多對多連線(交叉連線)

5.key的規範化

也就是上面介紹的,通過on來指定連線的key,明了且規範

並且,合併的時候,如果有兩個相同的列,但是on只指定了一列,另外一列相同時則會通過_x,_y等進行區分

可以通過引數suffix進行控制:

6.通過left_on、right_on指定左右兩邊的列作為key,這樣,當兩邊列名都不相等時使用

這樣即使兩邊不相等,也能連線了

7.內合併和外合併

內合併就是保留兩邊都有的key,這點和sql內連線的道理是一樣的,這是預設的方式,也就是how引數的預設值,不再贅述

外合併就是類似sql的外連線了,對於沒有連線上的資料,自動補全為nan:這也就是sql的全外連線

其他的left、right同理:

8.列衝突解決

也就是前面說的通過on控制列,加suffix來控制,預設值為_x,_y:

pandas資料分析入門

起始時間 start time str型別 yyyy mm dd hh mm ss 結束時間 end time str型別 yyyy mm dd hh mm ss 騎行時長 trip duration int型別,秒 起始車站 start station 例如百老匯街和巴里大道 結束車站 end s...

資料分析之Pandas

from pandas import series,dataframe import pandas as pd import numpy as np states california ohio oregon texas year 2000,2001,2002,2003 value 35000,71...

資料分析之pandas

pandas是基於numpy構建的庫,擁有兩種資料結構 series和dataframe series 就是一維陣列 dataframe 是二維陣列series in 1 from pandas import series,dataframe in 2 import pandas as pd in ...