hive sql基本上適用大資料領域離線資料處理的大部分場景。hive sql的優化也是我們必須掌握的技能,而且,面試一定會問。那麼,我希望面試者能答出其中的80%優化點,在這個問題上才算過關。
常見問題
分桶資料
本地化執行
job合併輸入小檔案
job合併輸出小檔案
jvm重利用
壓縮資料
hive map優化
(2)期望大小
(3)設定處理的檔案大小
(4)計算的map個數
經過以上的分析,在設定map個數的時候,可以簡答的總結為以下幾點:
map端聚合
推測執行
hive shuffle優化
reduce端
hive reduce優化
推測執行
reduce優化
bucket join
join 優化前
join優化後
group by 優化
優化後優化前
優化後
Android面試必備技能
這裡只簡單列舉一些東西,可能不是特別全,但是卻特別適用,也不一定按照下面的流程,有可能是穿插的,也有可能都有,根據公司的規模以及面試官的心情而定 哈哈哈 你們就自求多福吧 建議大家還是要將下面的東西全部掌握,沒事寫寫 練練手,在專案中能用到的地方一定要用,有可能會遇到很多坑,一定要自己想辦法填坑,之...
hive sql優化整理
hive sql優化方法引數一些整理,方便快速查詢使用 1.map數量與reduce數量的控制 輸入檔案大小指實際檔案大小,與檔案格式textfile,orc等無關,壓縮的檔案格式會小很多設定引數要適當調整 map數量控制 set hive.input.format org.apache.hadoo...
hivesql 效率優化
1.group by 資料傾斜問題 hive是根據group by 的key進行資料分發的,某個key相同的資料太多的會被分發到乙個reducer上,key的資料分布不均勻會導致大量資料被shuffle到某個或者某些reducer上,出現嚴重的資料傾斜,使得資料計算變慢 配置任務引數 set hiv...