解決資料傾斜問題

方法：解決資料傾斜問題

解決方法1. user_id為空的不參與關聯，例如：

select*

fromlog a

joinbmw_users b

ona.user_idisnotnull

anda.user_id = b.user_id

unionall

select*

fromlog a

wherea.user_idisnull.

解決方法2 ：

select*

fromlog a

leftouterjoinbmw_users b

oncasewhena.user_idisnullthenconcat(『dp_hive』,rand() )elsea.user_idend= b.user_id;

總結：2比1效率更好，不但io少了，而且作業數也少了。1方法log讀取兩次，jobs是2。2方法job數是1 。這個優化適合無效id(比如-99,』』,null等)產生的傾斜問題。把空值的key變成乙個字串加上隨機數，就能把傾斜的資料分到不同的reduce上 ,解決資料傾斜問題。因為空值不參與關聯，即使分到不同的reduce上，也不影響最終的結果。附上hadoop通用關聯的實現方法（關聯通過二次排序實現的，關聯的列為parition key,關聯的列c1和表的tag組成排序的group key,根據parition key分配reduce。同一reduce內根據group key排序）。

解決資料傾斜問題

Hive解決資料傾斜問題

Hive解決資料傾斜問題

怎麼解決資料傾斜問題？

解決資料傾斜問題

Hive解決資料傾斜問題

Hive解決資料傾斜問題

怎麼解決資料傾斜問題？

相關推薦