hadoop 核心元件
hadoop 包含以下模組:
hadoop common:常見實用工具,用來支援其他 hadoop 模組。
hadoop distributed file system(hdfs):分布式檔案系統,它提供對應用程式資料的高吞吐量訪問。
hadoop yarn:乙個作業排程和集群資源管理框架。
hadoop mapreduce:基於 yarn 的大型資料集的並行處理系統。
其他與 apache hadoop 的相關專案包括:
ambari:乙個基於web 的工具,用於配置、管理和監控的 apache hadoop 集群,其中包括支援 hadoop hdfs、hadoop mapreduce、hive、hcatalog、hbase、zookeeper、oozie、pig 和 sqoop。ambari 還提供了儀錶盤檢視集群的健康,如熱圖,並能夠以使用者友好的方式來檢視的 mapreduce、pig 和 hive 應用,方便診斷其效能。
hbase:乙個可擴充套件的分布式資料庫,支援結構化資料的大表儲存。
hive:資料倉儲基礎設施,提供資料彙總以及特定的查詢。
mahout:一種可擴充套件的機器學習和資料探勘庫。
pig:乙個高層次的資料流平行計算語言和執行框架。
spark:hadoop 資料的快速和通用計算引擎。spark 提供了簡單和強大的程式設計模型用以支援廣泛的應用,其中包括 etl、機器學習、流處理和圖形計算。
zookeeper:乙個高效能的分布式應用程式協調服務。
hadoop三大發行版
(1) apache hadoop
apache hadoop最原始版本,所有其他發行版均基於該發行版實現的。
官網位址如下
0.23.x :非穩定版
2.x :最新版是2.8.0,建議使用2.7.3穩定版。
3.0:已發行多個測試版,正式穩定版尚未發布
(2)cdh
cdh(cloudera』s distribution for hadoop)是cloudera 公司的的hadoop 發行版。
官方是如下。
包含cdh4 和cdh5 兩個版本
cdh4 ;基於apache hadoop 0.23.0 版本開發
cdh5 :基於apache hadoop 2.2.0 版本開發
(3)hdp
hdp(the hortonworks data platform)是hortonworks 公司的發行版。
官網位址是如下。
(4) 發行版選擇
- 作為學習,建議選擇apache hadoop最新的穩定版;
- 作為工作(生產環境),建議選擇cdh或hdp穩定版。
(5) 不同發行版相容性
架構、部署和使用方法一致,不同之處僅在若干內部實現。
hadoop快速入門
大資料核心含義是一種技術革新 隨著網際網路時代的深入,產生了越來越多的資料,比如 1 電商產生的大量使用者瀏覽 購物行為 2 移動運營商記錄了大量的使用者上網行為 3 網路輿情分析 營銷支撐 4 金融系統徵信分析 上述的這些需求,用以前的傳統技術無法勝任,需要有乙個全新的技術體系來支撐 在此背景之下...
Hadoop 快速入門
1.1 什麼是hadoop 1 hadoop是apache旗下一套開源軟體平台。2 hadoop提供的功能 利用伺服器集群,根據使用者的自定義業務邏輯,對海量資料進行分布式處理。3 hadoop的核心元件有 a common 基礎元件 b hdfs 分布式檔案系統 c yarn 運算支援排程系統 d...
Hadoop到底能做什麼?怎麼用hadoop?
調研hadoop頗久,就是想知道hadoop是什麼?hadoop能做什麼?怎麼用hadoop?最主要是這三塊,至於投入和風險也會隨之出來 濃縮了我幾十頁的調研方案啊!hadoop是什麼?hadoop是乙個開源的框架,可編寫和執行分布式應用,處理大規模資料,是專為離線和大規模資料分析而設計的,並不適合...