hive mapjoin 使用和個人理解

1、遇到乙個hive的問題，如下hive sql：

select t1.a,t1.b from table t1 join table2 t2 on ( t1.a=t2.a and t1.datecol=20110802)

該語句中b表有30億行記錄，t1表只有100行記錄，而且t2表中資料傾斜特別嚴重，有乙個key上有15億行記錄，在執行過程中特別的慢，而且在reduece的過程中遇有記憶體不夠而報錯。

為了解決使用者的這個問題，考慮使用mapjoin,mapjoin的原理：

mapjion會把小表全部讀入記憶體中，在map階段直接拿另外乙個表的資料和記憶體中表資料做匹配，而普通的equality join則是類似於mapreduce模型中的file join，需要先分組，然後再reduce端進行連線，使用的時候需要結合著場景；由於mapjoin是在map是進行了join操作，省去了reduce的執行，效率也會高很多

這樣就不會由於資料傾斜導致某個reduce上落資料太多而失敗。於是原來的sql可以通過使用hint的方式指定join時使用mapjoin。

select /*+ mapjoin(t1)*/ t1.a,t1.b from table t1 join table2 t2  on ( t1.a=t2.a and f.ftime=20110802)

再執行發現執行的效率比以前的寫法高了好多。

2、mapjoin還有乙個很大的好處是能夠進行不等連線的join操作，如果將不等條件寫在where中，那麼mapreduce過程中會進行笛卡爾積，執行效率特別低，這是由於equality join （不等值join操作有 >、<、like等如：a.x < b.y 或者 a.x like b.y）需要在reduce端進行不等值判斷，map端只能過濾掉where中等值連線時候的條件，如果使用mapjoin操作，在map的過程中就完成了不等值的join操作，效率會高很多。

select a.a ,a.b from a join b where a.a>b.a

3、mapjoin 不能使用與 outer join

select  /*+ mapjoin(t1)*/ t2.juid from t_pvjoinvv t1   
left outer join  
(select distinct juid from t_vvformat where start_date=20130306 and flag=1 and sourceid<3 ) t2  
on t1.juid=t2.juid  
where t1.start_date=20130306   
and  t1.pv_1stflag=1   
and t2.juid is null ;  
" ;

丟擲異常：

ok time taken: 1.957 seconds

failed: error in semantic analysis: mapjoin cannot be performed with outer join

簡單總結一下，mapjoin的使用場景：

1. 關聯操作中有一張表非常小

2.不等值的鏈結操作

hive mapjoin 使用和個人理解

使用xampp和wordpress搭建個人部落格

總結乙個報錯和tensorboard使用

使用繼承和使用組合的乙個例子

hive mapjoin 使用 和個人理解

使用xampp和wordpress搭建個人部落格

總結乙個報錯和tensorboard使用

使用繼承和使用組合的乙個例子

相關推薦

hive mapjoin 使用和個人理解