Hadoop快速入門( Hadoop簡介)

2022-08-26 00:03:23 字數 1528 閱讀 3597

hadoop 核心元件

hadoop 包含以下模組:

hadoop common:常見實用工具,用來支援其他 hadoop 模組。

hadoop distributed file system(hdfs):分布式檔案系統,它提供對應用程式資料的高吞吐量訪問。

hadoop yarn:乙個作業排程和集群資源管理框架。

hadoop mapreduce:基於 yarn 的大型資料集的並行處理系統。

其他與 apache hadoop 的相關專案包括:

ambari:乙個基於web 的工具,用於配置、管理和監控的 apache hadoop 集群,其中包括支援 hadoop hdfs、hadoop mapreduce、hive、hcatalog、hbase、zookeeper、oozie、pig 和 sqoop。ambari 還提供了儀錶盤檢視集群的健康,如熱圖,並能夠以使用者友好的方式來檢視的 mapreduce、pig 和 hive 應用,方便診斷其效能。

hbase:乙個可擴充套件的分布式資料庫,支援結構化資料的大表儲存。

hive:資料倉儲基礎設施,提供資料彙總以及特定的查詢。

mahout:一種可擴充套件的機器學習和資料探勘庫。

pig:乙個高層次的資料流平行計算語言和執行框架。

spark:hadoop 資料的快速和通用計算引擎。spark 提供了簡單和強大的程式設計模型用以支援廣泛的應用,其中包括 etl、機器學習、流處理和圖形計算。

zookeeper:乙個高效能的分布式應用程式協調服務。

hadoop三大發行版

(1) apache hadoop

apache hadoop最原始版本,所有其他發行版均基於該發行版實現的。

官網位址如下

0.23.x :非穩定版

2.x :最新版是2.8.0,建議使用2.7.3穩定版。

3.0:已發行多個測試版,正式穩定版尚未發布

(2)cdh

cdh(cloudera』s distribution for hadoop)是cloudera 公司的的hadoop 發行版。

官方是如下。

包含cdh4 和cdh5 兩個版本

cdh4 ;基於apache hadoop 0.23.0 版本開發

cdh5 :基於apache hadoop 2.2.0 版本開發

(3)hdp

hdp(the hortonworks data platform)是hortonworks 公司的發行版。

官網位址是如下。

(4) 發行版選擇

- 作為學習,建議選擇apache hadoop最新的穩定版;

- 作為工作(生產環境),建議選擇cdh或hdp穩定版。

(5) 不同發行版相容性

架構、部署和使用方法一致,不同之處僅在若干內部實現。

hadoop快速入門

大資料核心含義是一種技術革新 隨著網際網路時代的深入,產生了越來越多的資料,比如 1 電商產生的大量使用者瀏覽 購物行為 2 移動運營商記錄了大量的使用者上網行為 3 網路輿情分析 營銷支撐 4 金融系統徵信分析 上述的這些需求,用以前的傳統技術無法勝任,需要有乙個全新的技術體系來支撐 在此背景之下...

Hadoop 快速入門

1.1 什麼是hadoop 1 hadoop是apache旗下一套開源軟體平台。2 hadoop提供的功能 利用伺服器集群,根據使用者的自定義業務邏輯,對海量資料進行分布式處理。3 hadoop的核心元件有 a common 基礎元件 b hdfs 分布式檔案系統 c yarn 運算支援排程系統 d...

Hadoop到底能做什麼?怎麼用hadoop?

調研hadoop頗久,就是想知道hadoop是什麼?hadoop能做什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來 濃縮了我幾十頁的調研方案啊!hadoop是什麼?hadoop是乙個開源的框架,可編寫和執行分布式應用,處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合...