Hive SQL調優方法總結

使用分割槽剪裁、列剪裁

hive common join：如果不主動指定 mapjoin 或者不符合 mapjoin 的條件，hive 解析器預設的 join 操作就是 common join，即在 reduce 階段完成 join。過程如下

hive map join：mapjoin 通常用於乙個很小的表和乙個大表進行 join 的場景。過程如下：

keyvalue126

234導致資料傾斜的操作：group by, countdistinct, join

資料傾斜產生的原因：key 分布不均勻，業務資料本身特點

常用的資料傾斜解決辦法：

控制 hive 任務的 reduce 數：同樣的，在設定 reduce 個數的時候也需要考慮這兩個原則：使大資料量利用合適的 reduce 數；使單個 reduce 任務處理合適的資料量；

調整 reduce 個數方法就在於調集成理的引數

reduce 個數並不是越多越好：同 map 一樣，啟動和初始化 reduce 也會消耗時間和資源；另外，有多少個 reduce, 就會有多少個輸出檔案，如果生成了很多個小檔案，那麼如果這些小檔案作為下乙個任務的輸入，則也會出現小檔案過多的問題；

什麼情況下只有乙個 reduce：沒有 group by 的彙總、用了 order by、有笛卡爾積