HADOOP生態圈以及各組成部分的簡介

2021-08-21 03:00:53 字數 637 閱讀 7122

重點元件:

hdfs:分布式

檔案系統

,隱藏集群細節,可以看做一塊兒超大硬碟

主:namenode,secondarynamenode

從:datanode

yarn:分布式

資源管理系統

,用於同一管理集群中的資源(記憶體等)

主:resourcemanager

從:nodemanager

mapreduce

:分布式運算程式

開發框架,

類似於spring。

hive

:基於大資料技術(檔案系統

+運算框架)的

sql資料倉儲工具

,可以將結構化的資料檔案對映為一張資料庫   表,並提供簡單的sql查詢功能,可以將sql語句轉換為mapreduce任務進行執行。

hbase:基於hadoop的分布式海量

資料庫zookeeper

:分布式

協調服務

基礎元件

mahout:基於mapreduce/spark/flink等分布式運算框架的

機器學習演算法庫

oozie:工作流排程框架

sqoop:資料匯入匯出工具

flume:日誌資料採集框架

Hadoop生態圈普及

大資料一路走來,從最開始的hadoop1.0 逐漸發展到hadoop2.0。hadoop的橫空出世引領了大資料行業技術的發展。逐漸以分布式並行離線處理框架mapreduce 分布式檔案儲存系統hdfs以及排程系統yarn為中心,發展出龐大的生態圈,比如hive hbase zookeeper等等,豐...

Hadoop生態圈初識

一 簡介 hadoop是乙個由apache 會所開發的分布式系統基礎架構。hadoop的框架最核心的設計就是 hdfs和mapreduce。hdfs為海量的資料提供了儲存,則mapreduce為海量的資料提供了計算。二 hdfs hadoop distributed file system,簡稱hd...

Hadoop生態圈各元件的啟動及關閉指令碼

將所學知識整理一下,備忘。1.hdfs v 2.7.3 1.1.啟動集群 sbin start dfs.sh 注 這個啟動指令碼是通過ssh對多個節點的namenode datanode journalnode以及zkfc程序進行批量啟動的。1.2.啟動namenode sbin hadoop da...