1、 兩個dataframe 外連線
df3= df.merge(df2,on =
['datekey','user_id','is_pay'
],how =
'outer'
)# on = [兩個dataframe中相同的字段],
# how = 'outer' 外連線
2、多個dataframe外連線合併
以txt格式儲存的多個本地檔案為例(1018.txt,1019.txt),檔名分別為:1018,1019,1020,1021,1022,1023,1024,1025,1026,1027,1028,1029,1030,1031,1101,1102,1103,1104,1105,1106,1107
第一步,從本地讀取所有資料
g_list=
for i in
[1018,1019,1020,1021,1022,1023,1024,1025,1026,1027,1028,1029,1030,1031,1101,1102,1103,1104,1105,1106,1107]:
g = open(r'd:\work\fenxi\fenxiguihua\loseuser2\lastpay_benyidi\{}.txt'.format(i))
# 如果csv檔案時可以直接讀取csv檔案
g = pd.read_table(g,header=0)
# 需要先讀取成表才可以進行merge
第二步: 根據多個表的相同字段進行關聯
g = reduce(lambda left,right:pd.merge(left,right,on=
['datekey','user_id','is_pay','city_num','changzhudi_ordernum_lastpay',
'nochangzhudi_ordernum_lastpay'
],how=
'outer'
),g_list)
g.head(
)
Spark 解析XML檔案到DataFrame
公司遇到一點需求,平時load檔案基本上都是csv格式的檔案,可是就有那麼乙個檔案是xml檔案,這也正常,因為檔案是別的team推過來的,自然要遵循他們的格式,於是就要想辦法解析xml檔案。目標是把xml檔案轉換為dataframe,然後寫到表中。可是spark.reader並沒有讀取xml格式檔案...
Pandas統計分析基礎之DataFrame
3 更改dataframe中的資料 4 增加dataframe中的資料 刪除dataframe中的資料 dataframe類似於資料庫的表或者excel的 panda將資料讀取之後,以dataframe的資料結構儲存在記憶體中。下面就來介紹一下dataframe的增刪查改操作。因為dataframe...
python教學筆記 python學習筆記(一)
1.eval 函式 eval是單詞evaluate的縮寫,就是 求.的值的意思。eval 函式的作用是把str轉換成list,dict,tuple.li 1 1,2,3 print eval li 1 di 1 print eval di 1 tu 1 2,4,6 print eval tu 1 執...