map端和reduce端引數的調優策略

2021-08-31 13:43:21 字數 437 閱讀 9439

原文

使用hadoop進行大資料運算,當資料量及其大時,那麼對mapreduce效能的調優重要性不言而喻。尤其是shuffle過程中的引數配置對作業的總執行時間影響特別大。下面基於官網和工作中的情況總結和相關的調優策略。

1.關於map端的調優屬性   

2.關於reduce端的調優屬性

通常來說,在reduce端如果把中間資料全部駐留在記憶體中,那麼肯定可以獲取最佳效能,但預設情況下,不會發生。因為預設要預留很多記憶體給reduce函式進行運算。

Hive中開啟Map端和Reduce端的壓縮

1 開啟hive中間傳輸資料壓縮功能 set hive.exec.compress.intermediate true 2 開啟mapreduce中map的壓縮功能 set mapreduce.map.output.compress true 3 設定mapreduce中map輸出資料的壓縮方式 s...

reduce端join與map端join演算法實現

2 實現機制 通過將關聯的條件作為map輸出的key,將兩表滿足join條件的資料並攜帶資料所 的檔案資訊,發往同乙個reduce task,在reduce中進行資料的串聯 第一步 定義joinbeans public class joinbeans extends joinreduce imple...

hadoop map端reduce端調優引數

map端 io.sort.mb 型別int預設100 map的記憶體緩衝區 io.sort.record.precent 型別 float預設0.05 io.sort.mb的快取區記錄索引kvindices和快取區記錄索引排序工作陣列kvoffsets占用空間比例 io.sort.spill.per...