HIVE的優化 問題定位

2021-10-08 11:09:32 字數 326 閱讀 6427

a.map數量過多

1. 是否是輸入的小檔案過多導致map數量過多,這種情況考慮設定引數在map前先合併小檔案(具體設定詳解見hadoop小檔案中4.e的設定

b.map數量過少

如果表a只有乙個檔案,大小為120m,但包含幾千萬的記錄,如果用1個map去完成這個任務,肯定是比較耗時的,這種情況下,我們要考慮將這乙個檔案合理的拆分成多個

c.reduce數量過少

這種情況一般原因是語法中有join或者group操作,而資料有比較嚴重傾斜,詳見資料傾斜相關處理

Hive 筆記五 hive的優化

本地模式 嚴格模式 jvm重用 並行執行 推測還行 合併小檔案 fetch模式 1.列裁剪和分割槽裁剪 列裁剪是在查詢時只讀取需要的列 分割槽裁剪就是只讀取需要的分割槽。2.sort by代替 order by 3.group by 代替count distinct 1 common join 普通...

hive的效能優化

計算資料優化主要有兩種思路,一種是減少處理資料量 一種是解決資料傾斜。資料傾斜一般可以分為三種 join階段資料傾斜 reduce階段資料傾斜 主要有兩種方式 1.2 join階段資料傾斜 是最常見的資料傾斜,按照表的大小和join方式的不同分別有多種處理方式。1.2.1 mapjoin 作用 適用...

hive的學習 優化

一.表連線 1.將大表放後頭 hive假定查詢中最後的乙個表是大表。它會將其它表快取起來,然後掃瞄最後那個表。因此通常需要將小表放前面,或者標記哪張表是大表 streamtable table name 否則會引起磁碟和記憶體的大量消耗。2.使用相同的連線鍵 當對3個或者更多個表進行join連線時,...