重點元件:
hdfs:分布式
檔案系統
,隱藏集群細節,可以看做一塊兒超大硬碟
主:namenode,secondarynamenode
從:datanode
yarn:分布式
資源管理系統
,用於同一管理集群中的資源(記憶體等)
主:resourcemanager
從:nodemanager
mapreduce
:分布式運算程式
開發框架,
類似於spring。
hive
:基於大資料技術(檔案系統
+運算框架)的
sql資料倉儲工具
,可以將結構化的資料檔案對映為一張資料庫 表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。
hbase:基於hadoop的分布式海量
資料庫zookeeper
:分布式
協調服務
基礎元件
mahout:基於mapreduce/spark/flink等分布式運算框架的
機器學習演算法庫
oozie:工作流排程框架
sqoop:資料匯入匯出工具
flume:日誌資料採集框架
Hadoop生態圈普及
大資料一路走來,從最開始的hadoop1.0 逐漸發展到hadoop2.0。hadoop的橫空出世引領了大資料行業技術的發展。逐漸以分布式並行離線處理框架mapreduce 分布式檔案儲存系統hdfs以及排程系統yarn為中心,發展出龐大的生態圈,比如hive hbase zookeeper等等,豐...
Hadoop生態圈初識
一 簡介 hadoop是乙個由apache 會所開發的分布式系統基礎架構。hadoop的框架最核心的設計就是 hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。二 hdfs hadoop distributed file system,簡稱hd...
Hadoop生態圈各元件的啟動及關閉指令碼
將所學知識整理一下,備忘。1.hdfs v 2.7.3 1.1.啟動集群 sbin start dfs.sh 注 這個啟動指令碼是通過ssh對多個節點的namenode datanode journalnode以及zkfc程序進行批量啟動的。1.2.啟動namenode sbin hadoop da...