面試必備技能 HiveSQL優化

2022-03-11 20:40:07 字數 705 閱讀 4730

hive sql基本上適用大資料領域離線資料處理的大部分場景。hive sql的優化也是我們必須掌握的技能,而且,面試一定會問。那麼,我希望面試者能答出其中的80%優化點,在這個問題上才算過關。

常見問題

分桶資料

本地化執行

job合併輸入小檔案

job合併輸出小檔案

jvm重利用

壓縮資料

hive map優化

(2)期望大小

(3)設定處理的檔案大小

(4)計算的map個數

經過以上的分析,在設定map個數的時候,可以簡答的總結為以下幾點:

map端聚合

推測執行

hive shuffle優化

reduce端

hive reduce優化

推測執行

reduce優化

bucket join

join 優化前

join優化後

group by 優化

優化後優化前

優化後

Android面試必備技能

這裡只簡單列舉一些東西,可能不是特別全,但是卻特別適用,也不一定按照下面的流程,有可能是穿插的,也有可能都有,根據公司的規模以及面試官的心情而定 哈哈哈 你們就自求多福吧 建議大家還是要將下面的東西全部掌握,沒事寫寫 練練手,在專案中能用到的地方一定要用,有可能會遇到很多坑,一定要自己想辦法填坑,之...

hive sql優化整理

hive sql優化方法引數一些整理,方便快速查詢使用 1.map數量與reduce數量的控制 輸入檔案大小指實際檔案大小,與檔案格式textfile,orc等無關,壓縮的檔案格式會小很多設定引數要適當調整 map數量控制 set hive.input.format org.apache.hadoo...

hivesql 效率優化

1.group by 資料傾斜問題 hive是根據group by 的key進行資料分發的,某個key相同的資料太多的會被分發到乙個reducer上,key的資料分布不均勻會導致大量資料被shuffle到某個或者某些reducer上,出現嚴重的資料傾斜,使得資料計算變慢 配置任務引數 set hiv...