hadoop1.0的核心元件(僅指mapreduce和hdfs,不包括hadoop生態系統內的pig、hive、hbase等其他元件),主要存在以下不足:
hadoop的優化與發展主要體現在兩個方面:
hadoop框架自身的改進:從1.0到2.0:
不斷完善的hadoop生態系統:
hdfs1.0中存在的問題:
hdfs federation的設計:
hdfs federation的訪問方式:
hdfs federation相對hdfs1.0的優勢:
hdfs federation設計可解決單名稱節點存在的以下幾個問題:
hdfs集群擴充套件性。多個名稱節點各自分管一部分目錄,使得乙個集群可以擴充套件到更多節點,不再像hdfs1.0中那樣由於記憶體的限制制約檔案儲存數目 。
效能更高效。多個名稱節點管理不同的資料,且同時對外提供服務,將為使用者提供更高的讀寫吞吐率 。
良好的隔離性。使用者可根據需要將不同業務資料交由不同名稱節點管理,這樣不同業務之間影響很小。
需要注意的,hdfs federation並不能解決單點故障問題,也就是說,每個名稱節點都存在在單點故障問題,需要為每個名稱節點部署乙個後備名稱節點,以應對名稱節點掛掉對業務產生的影響。存在單點故障。
jobtracker「大包大攬」導致任務過重(任務多時記憶體開銷大,上限4000節點)。
容易出現記憶體溢位(分配資源只考慮mapreduce任務數,不考慮cpu、記憶體)。
資源劃分不合理(強制劃分為slot ,包括map slot和reduce slot)。
yarn架構思路:將原jobtacker三大功能拆分
以上內容為聽華為大資料培訓課程和大學mooc上廈門大學 林子雨的《大資料技術原理與應用》課程而整理的筆記。大資料技術原理與應用:
十八 Hadoop的優化
終於看到這麼親民的標題了,一般到了優化的部分,基本上就接近尾聲了。沒錯,hadoop部分即將結束了,hadoop ha部分的講解就放到zookeeper之後吧,畢竟ha要用到zookeeper。關注專欄 破繭成蝶 大資料篇 檢視相關系列的文章 目錄 一 mapreduce執行慢的原因 二 mapre...
hadoop的企業優化
前言 mapreduce程式的效率的瓶頸在於兩點 計算機效能 cpu 記憶體 磁碟健康 網路 i o操作 資料傾斜 map和reduce數量設定不合理 map的執行時間太長,導致reduc的等待過久 小檔案過多 大量的補課分塊的超大檔案 spill 溢寫 次數過多 merge 合併 次數過多 map...
Hadoop 六 Hadoop企業優化
mapreduce 程式效率的瓶頸在於兩點 cpu 記憶體 磁碟健康 網路 1 資料傾斜 2 map和reduce數設定不合理 3 map執行時間太長,導致reduce等待過久 4 小檔案過多 5 大量的不可分塊的超大檔案 6 spill次數過多 7 merge次數過多等。mapreduce優化方法...