HiveSQL中row number使用介紹

方式一：

select 
t2.user_log_acct
,t2.item_sku_id
,t2.time
from 
(select * 
from
distribute by item_sku_id
sort by user_log_acct,item_sku_id,time desc
) t2
where row_number(t2.user_log_acct, t2.item_sku_id) = 1
;

方式二：

--由於item_sku_id資料量比較大，distribute by item_sku_id 生成的reduce數量比較多，效能比較低；可以修改如下，100可以根據不同情況來調： select t2.user_log_acct ,t2.item_sku_id ,t2.time from (select * from distribute by pmod(item_sku_id, 100) sort by user_log_acct,item_sku_id,time desc ) t2 where row_number(t2.user_log_acct, t2.item_sku_id) = 1

;

方式三：

--由於有可能有些hive版本不知道上面兩種直接where後面row_number(t2.user_log_acct, t2.item_sku_id) = 1
select 
t3.user_log_acct
,t3.item_sku_id
,t3.time
from
(select 
t2.user_log_acct
,t2.item_sku_id
,t2.time
,row_number(t2.user_log_acct, t2.item_sku_id) r_num
from 
(select * 
from
distribute by pmod(item_sku_id, 100)
sort by user_log_acct,item_sku_id,time desc
) t2
) t3 
where t3.r_num = 1
;

注意點：

1.使用子查詢保證row_number在reduce端執行。

2.使用distribute by item_sku_id sort by user_log_acct,item_sku_id,time desc來保證item_sku_id相同的記錄被分配到相同的reduce中。

HiveSQL中row number使用介紹

hive sql中的json解析函式

Hive SQL獲取表中複雜結構資料

hive sql優化整理

HiveSQL中row number使用介紹

hive sql中的json解析函式

Hive SQL獲取表中複雜結構資料

hive sql優化整理

相關推薦