1)namenode(nn) : 儲存檔案的元資料,如檔名,檔案目錄結構,檔案屬性(生成時間,副本數,檔案許可權),以及每個檔案的快列表和快所在的datanode等
2)datanode(dn) :在本地檔案系統儲存檔案塊資料,以及塊資料的校驗
3)secondarynamenode(2nn):=每隔一段時間對namenode元資料備份
container
container是yarm中的資源抽象,它封裝了某個節點上的多維度資源,如記憶體 ,cpu,磁碟,網路等
mapreduce將計算過程分為兩個過程:map和reduce
map階段並行處理輸入資料
2)reduce階段對map結果進行彙總
1)sqoop:sqoop是一款開源的工具,主要用於在hadoop、hive與傳統的資料庫(mysql)間進行資料的傳遞,可以將乙個關係型資料庫(例如 :mysql,oracle 等)中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。
2)flume:flume是乙個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料;
3)kafka:kafka是一種高吞吐量的分布式發布訂閱訊息系統;
4)spark:spark是當前最流行的開源大資料記憶體計算框架。可以基於hadoop上儲存的大資料進行計算。
5)flink:flink是當前最流行的開源大資料記憶體計算框架。用於實時計算的場景較多。
6)oozie:oozie是乙個管理hdoop作業(job)的工作流程排程管理系統。
7)hbase:hbase是乙個分布式的、面向列的開源資料庫。hbase不同於一般的關聯式資料庫,它是乙個適合於非結構化資料儲存的資料庫。
8)hive:hive是基於hadoop的乙個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。 其優點是學習成本低,可以通過類sql語句快速實現簡單的mapreduce統計,不必開發專門的mapreduce應用,十分適合資料倉儲的統計分析。
9)zookeeper:它是乙個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。
Hadoop的基本組成
hadoop主要包含了四個模組 即 hadoop common hadoop工具包,為其它hadoop模組提供基礎設施。hadoop hdfs 對海量資料的儲存。hadoop分布式檔案系統,用於儲存海量資料 具有分布式特徵 安全性 同時儲存三份副本資料 hadoop mapreduce 對海量資料的...
HBase 架構組成
主要負責hregionserver的協調管理及table的ddl操作 新增 更新和刪除 hregionserver的管理包含兩方面 監控hregionserver的執行狀態 從zk接受通知 region的分配 hregionserver擴容 宕機及負載均衡等情況 hmaster的ha解決方案 主備切...
Hadoop架構分析
1.hadoop有許多元素構成。最底部是hadoop distributed file system hdfs 它儲存hadoop集群中所有儲存節點上的檔案,與hdfs相關的服務有namenode secondarynamenode以及datanode hdfs 對於文字 的上一層是mapreduc...