使用分割槽剪裁、列剪裁
hive common join:如果不主動指定 mapjoin 或者不符合 mapjoin 的條件,hive 解析器預設的 join 操作就是 common join,即在 reduce 階段完成 join。過程如下
hive map join:mapjoin 通常用於乙個很小的表和乙個大表進行 join 的場景。過程如下:
keyvalue126
234導致資料傾斜的操作:group by, countdistinct, join
資料傾斜產生的原因:key 分布不均勻,業務資料本身特點
常用的資料傾斜解決辦法:
控制 hive 任務的 reduce 數:同樣的,在設定 reduce 個數的時候也需要考慮這兩個原則:使大資料量利用合適的 reduce 數;使單個 reduce 任務處理合適的資料量;
調整 reduce 個數方法就在於調集成理的引數
reduce 個數並不是越多越好:同 map 一樣,啟動和初始化 reduce 也會消耗時間和資源;另外,有多少個 reduce, 就會有多少個輸出檔案,如果生成了很多個小檔案,那麼如果這些小檔案作為下乙個任務的輸入,則也會出現小檔案過多的問題;
什麼情況下只有乙個 reduce:沒有 group by 的彙總、用了 order by、有笛卡爾積
初次 Hive sql 的join調優
業務需要,要在hive裡把兩個表關聯起來,所以需要用到join語句,然後第一次隨手寫了join,直接跑。然後跑了6個小時沒跑完,被管理員取消了。於是想辦法改進 首先想的是不直接join兩個表的所有屬性,而是分別找到各自需要的屬性,用各自的where條件限制,用子巢狀語句完成,最後在group by一...
效能調優總結
1 對於中介軟體為tomcat的應用系統,盡量採用較高版本的tomcat進行部署 如tomcat6 並開啟tomcat6的nio模組 2 採用tomcat自身的連線池進行http連線的分配,不要採用手工的方式進行http連線的釋放和分配 3 對於讀多寫少的應用系統,盡量需要採用memcache來緩解...
Hadoop調優總結
size large 1.管理員角度主要在四方面進行調優 size 1 硬體選擇 2 作業系統引數調優 3 jvm引數調優 4 hadoop引數調優。size large 2.作業系統調優 size 1 增大同時開啟的檔案描述符合網路連線上限。管理員在啟動hadoop集群時,應使用ulimit命令將...