(1)要注意namenode和datanode的通訊,有乙個引數可以提公升他們通訊的順暢度(即20logn,n為集群大小)。
(2)注意把hdfs的namenode 檔案edits(日誌檔案)和fsimage(映象檔案)配置在不同目錄下。可以提公升namenode效能
(3)基準測試:測試hdfs的寫/讀效能
問題描述:沒有資料傾斜,小檔案已經做了合併處理,開啟的jvm重用,而且io沒有阻塞,記憶體用了不到50%。但是還是跑的非常慢,而且資料量洪峰過來時,整個集群都會宕掉。基於這種情況有沒有優化方案。解決辦法:
(1)如果mr造成系統宕機。此時要控制yarn同時執行的任務數,和每個任務申請的最大記憶體。調整引數:yarn.scheduler.maximum-allocation-mb(單個任務可申請的最多物理記憶體量,預設是8g)
(2)如果寫入檔案過量造成namenode宕機。那麼調高kafka的儲存大小,控制從kafka到hdfs的寫入速度。高峰期的時候用kafka進行快取,高峰期過去資料同步會自動跟上。
hadoop 引數調優重點引數
yarn的引數調優,必調引數 28 yarn.nodemanager.resource.memory mb 預設為8192。每個節點可分配多少物理記憶體給yarn使用,考慮到節點上還 可能有其他程序需要申請記憶體,該值設定為物理記憶體總數 1.3比較合適,例如128g記憶體的節點可以分配100g 3...
hadoop的引數調優
1,在hdfs site.xml 中配置多目錄,提前配置好,以免以後要配置時,需要重啟集群。2,namenode 有乙個工作執行緒池,用來處理不同的datanode的併發心跳和客戶端訪問併發請求。配置dfs.namenode.handler.count 20 log2 cluster size 比如...
Hadoop調優的幾個引數
hdfs hdfs site.xml中的dfs.namenode.handler.count 20 log2 cluster size 比如集群規模為 8 台時,此引數設定為 60,該引數決定有多少執行緒數用來處理不同 datanode 的併發心跳以及客戶端併發的元資料操作 yarn yarn si...