python 筆記 dataframe合併

2021-10-01 21:10:03 字數 1048 閱讀 3859

1、 兩個dataframe 外連線

df3= df.merge(df2,on =

['datekey','user_id','is_pay'

],how =

'outer'

)# on = [兩個dataframe中相同的字段],

# how = 'outer' 外連線

2、多個dataframe外連線合併

以txt格式儲存的多個本地檔案為例(1018.txt,1019.txt),檔名分別為:1018,1019,1020,1021,1022,1023,1024,1025,1026,1027,1028,1029,1030,1031,1101,1102,1103,1104,1105,1106,1107

第一步,從本地讀取所有資料

g_list=

for i in

[1018,1019,1020,1021,1022,1023,1024,1025,1026,1027,1028,1029,1030,1031,1101,1102,1103,1104,1105,1106,1107]:

g = open(r'd:\work\fenxi\fenxiguihua\loseuser2\lastpay_benyidi\{}.txt'.format(i))

# 如果csv檔案時可以直接讀取csv檔案

g = pd.read_table(g,header=0)

# 需要先讀取成表才可以進行merge

第二步: 根據多個表的相同字段進行關聯

g = reduce(lambda left,right:pd.merge(left,right,on=

['datekey','user_id','is_pay','city_num','changzhudi_ordernum_lastpay',

'nochangzhudi_ordernum_lastpay'

],how=

'outer'

),g_list)

g.head(

)

Spark 解析XML檔案到DataFrame

公司遇到一點需求,平時load檔案基本上都是csv格式的檔案,可是就有那麼乙個檔案是xml檔案,這也正常,因為檔案是別的team推過來的,自然要遵循他們的格式,於是就要想辦法解析xml檔案。目標是把xml檔案轉換為dataframe,然後寫到表中。可是spark.reader並沒有讀取xml格式檔案...

Pandas統計分析基礎之DataFrame

3 更改dataframe中的資料 4 增加dataframe中的資料 刪除dataframe中的資料 dataframe類似於資料庫的表或者excel的 panda將資料讀取之後,以dataframe的資料結構儲存在記憶體中。下面就來介紹一下dataframe的增刪查改操作。因為dataframe...

python教學筆記 python學習筆記(一)

1.eval 函式 eval是單詞evaluate的縮寫,就是 求.的值的意思。eval 函式的作用是把str轉換成list,dict,tuple.li 1 1,2,3 print eval li 1 di 1 print eval di 1 tu 1 2,4,6 print eval tu 1 執...