pandas的merge方法提供了一種類似於sql的記憶體鏈結操作,官網文件提到它的效能會比其他開源語言的資料操作(例如r)要高效。
merge的引數
on:列名,join用來對齊的那一列的名字,用到這個引數的時候一定要保證左表和右表用來對齊的那一列都有相同的列名。
left_on:左表對齊的列,可以是列名,也可以是和dataframe同樣長度的arrays。
right_on:右表對齊的列,可以是列名,也可以是和dataframe同樣長度的arrays。
left_index/ right_index: 如果是true的haunted以index作為對齊的key
how:資料融合的方法。
sort:根據dataframe合併的keys按字典順序排序,預設是,如果置false可以提高表現。
merge的預設合併方法:
merge用於表內部基於 index-on-index 和 index-on-column(s) 的合併,但預設是基於index來合併。
使用merge的時候可以選擇多個key作為復合可以來對齊合併。
in [41]: left = pd.dataframe()
....:
in [42]: right = pd.dataframe()
....:
in [43]: result = pd.merge(left, right, on=['key1', 'key2'])
沒有指定how的話預設使用inner方法。
how的方法有:
left
只保留左表的所有資料
in [44]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])
right
只保留右表的所有資料
in [45]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])
outer
保留兩個表的所有資訊
in [46]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
inner
只保留兩個表中公共部分的資訊
in [47]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])
v0.17.0 版本的pandas開始還支援乙個indicator的引數,如果置true的時候,輸出結果會增加一列 』 _merge』。_merge列可以取三個值
left_only 只在左表中
right_only 只在右表中
both 兩個表中都有
pandas合併操作
通過鍵 這裡的鍵是dataframe的某一列 拼接列,應用場景 針對同一主鍵存在兩張包含不同欄位的表,如果想把這兩張表整合成一張表,就可以使用merge。merge結果的行數並沒有 pd.merge left,right,how inner on none,suffixes x y 引數how in...
pandas 合併操作join函式
dataframe內建的join方法是一種快速合併的方法。它預設以index作為對齊的列。join中的how引數和merge中的how引數一樣,用來指定表合併保留資料的規則。具體可見前面的 how 說明。在實際應用中如果右表的索引值正是左表的某一列的值,這時可以通過將 右表的索引 和 左表的列 對齊...
pandas資料合併
pandas 提供了三種主要方法可以對資料進行合併 pandas.merge 方法 資料庫風格的合併 例如,通過merge 方法將兩個dataframe合併 on name 的意思是將name列當作鍵 預設情況下,merge做的是內連線 inner 即鍵的交集。其他方式還有左連線 left 右連線 ...