hadoop開發優化總結

2021-08-20 01:42:37 字數 857 閱讀 4472

1、mapreduce資料壓縮:

1)壓縮技術能夠有效減少底層儲存系統(hdfs)讀寫位元組數。壓縮提高了網路頻寬和磁碟空間的效率。

在hadood下,尤其是資料規模很大和工作負載密集的情況下,使用資料壓縮顯得非常重要。

在這種情況下,i/o操作和網路資料傳輸要花大量的時間。還有,shuffle與merge過程同樣也面臨著巨大的i/o壓力。

注意:壓縮特性運用得當能提高效能,但運用不當也可能降低效能。

基本原則:

(1)運算密集型的job,少用壓縮

(2)io密集型的job,多用壓縮

2)hadoop預設不支援多種壓縮格式,需要重新編譯後才可以

* default : .default(檔案不可切分) : org.apache.hadoop.io.compress.defaultcodec

* bzip2   : .bz2

(檔案可切分) : org.apache.hadoop.io.compress.bzip2codec

3)配置方式

* core-default.xml

* mapred-default.xml

2、combiner區域性彙總:

對每乙個maptask的輸出進行區域性彙總,以減小網路傳輸量

3、distributedcache快取

資料傾斜原因: 如果是多張表的操作都是在reduce階段完成,reduce端的處理壓力太大,map節點的運算負載則很低,資源利用率不高,且在reduce階段極易產生資料傾斜。

(2)在驅動函式中載入快取。

job.addcachefile(new uri("file:/e:/mapjoincache/pd.txt"));// 快取普通檔案到task執行節點

Hadoop 六 Hadoop企業優化

mapreduce 程式效率的瓶頸在於兩點 cpu 記憶體 磁碟健康 網路 1 資料傾斜 2 map和reduce數設定不合理 3 map執行時間太長,導致reduce等待過久 4 小檔案過多 5 大量的不可分塊的超大檔案 6 spill次數過多 7 merge次數過多等。mapreduce優化方法...

Hadoop 企業優化

mapreduce優化方法主要從六個方面考慮 資料輸入 map階段 reduce階段 io傳輸 資料傾斜問題和常用的調優引數。2.6.1 資源相關引數 以下引數是在使用者自己的mr應用程式中配置就可以生效 mapred default.xml 配置引數 引數說明 mapreduce.map.memo...

hadoop 開發基礎

目錄 rz的使用 vi 快捷鍵 檔案許可權的操作 配置免密碼登陸 後台服務管理 iptable 防火牆 linux 中的軟體安裝 本地yum安裝倉庫配置 檔案上傳到linux 是上傳到當前目錄所在的資料夾 yum list grep lrzsz sudo yum y install lrzsz.x8...