hive sql優化整理

hive sql優化方法引數一些整理，方便快速查詢使用

1. map數量與reduce數量的控制

輸入檔案大小指實際檔案大小，與檔案格式textfile, orc等無關，壓縮的檔案格式會小很多設定引數要適當調整

--map數量控制 set hive.input.format=org.apache.hadoop.hive.ql.io.combinehiveinputformat; set mapred.max.split.size=5000000; -- 每個map處理最大檔案大小 set mapred.min.split.size.per.node=5000000; -- 每個節點處理最小檔案大小 set mapred.min.split.size.per.rack=5000000; -- 每個機架處理最小檔案大小 --reduce數量控制 set hive.exec.reducers.bytes.per.reducer=1073741824; -- 預設1g set hive.exec.reducers.max=16; -- 設定最大的reduce數目

set mapred.reduce.tasks=6; -- 設定reduce數為6

2. 資料發生傾斜

a. 增加reduce的個數，減少reduce資料量 b. join時裁剪過濾無效的key值：不參與join的key值，為null值、空值等無效的值 c. 轉換key->new_key，資料對new_key的分割槽更加均勻 d. 對資料分布量很大的有限個key 進行單獨處理

e. 若出現小表情況，可以考慮使用mapjoin

3. mapjoin,快取小表資料在map端

set hive.auto.convert.join=false;
set hive.ignore.mapjoin.hint=false;
set hive.optimize.bucketmapjoin.sortedmerge=false;
select  /*+ mapjoin(b)*/
a.key,
a.first_name,
b.last_name
from more_record_table a
join less_record_table b
on a.key = b.key;

hive sql優化整理

HiveSql整理 , 習題

hivesql 效率優化

HIVESQL優化方法

hive sql優化整理

HiveSql整理 , 習題

hivesql 效率優化

HIVESQL優化方法

相關推薦