hadoop有許多發行版本,基本可以分為1.x版本和2.x版本。兩者基本組成如下:
其基本思想源自於google的gfs**,hdfs是gfs轉殖版。
其設計理念源自於google的mapreduce**,hadoop mapreduce是google mapreduce轉殖版。
- mapreduce特點
1、良好的擴充套件性
2、高容錯性
3、適合pb級以上海量資料的離線處理
針對hadoop1.x和hadoop2.x有不同的生態系統,詳情如下。
其設計理念源自google的bigtable**,hbase是google bigtable轉殖版。
hive由facebook開源,最初用於解決海量結構化的日誌資料統計問題;本質上是乙個etl(extraction-transformation-loading)工具。
hive是構建在hadoop之上的資料倉儲,資料計算使用mapreduce,資料儲存使用hdfs。hive 定義了一種類 sql 查詢語言——hql,類似sql,但不完全相同。 通常用於進行離線資料處理(採用mapreduce),可認為是乙個hqlmr的語言翻譯器。
pig由yahoo!開源,設計理念是提供一種基於mapreduce的ad-hoc資料分析工具,也是構建在hadoop之上的資料倉儲。pig定義了一種資料流語言——pig latin,通常用於進行離線分析。
其設計理念源自google的chubby**,zookeeper是chubby轉殖版。
zookeeper解決了分布式環境下資料管理問題例如:統一命名、狀態同步、集群管理、配置同步等。
sqoop連線hadoop與傳統資料庫之間的橋梁,支援多種資料庫,包括mysql、db2等;還支援插拔式,使用者可根據需要支援新的資料庫。sqoop本質上是乙個mapreduce程式,它充分利用了mr分布式並行和高容錯性的特點。
flume是cloudera開源的日誌收集系統,具有如下特點:
雲計算開始走向落地
本文講的是雲計算開始走向落地,it168 資訊 從廠商到使用者,如今都在討論雲計算。雲計算已經開始替代綠色資料中心,成為了當今最流行的詞彙。在雲計算概念的基礎上,又進一步派生出了公有雲 私有雲以及混合雲的概念,如果從雲的功能上來劃分,又可分為雲計算和雲儲存,其中,雲儲存又劃分為面向公眾的雲儲存,以及...
雲計算將從神壇走向大眾
2012 年,對於企業來說,雲運算可能不會象以往一樣光彩照人,不是因為雲運算會消失。相反,雲運算會更為普及,企業和it 終端使用者可能會忘記他們甚至在使用離開雲運算的軟體。一 許多使用者使用雲計算但卻沒有意識到這一點。微軟加拿大公司最近對705 家企業進行的一項調查顯示,有19 的企業稱他們目前不使...
hadoop大資料與hadoop雲計算
hadoop入門課程 hadoop大資料與hadoop雲計算,hadoop最擅長的事情就是可以高效地處理海量規模的資料,這樣hadoop就和大資料及雲計算結下了不解之緣。本節將先介紹與大資料相關的內容,然後講解hadoop 大資料以及雲計算之間的關係,使讀者從大資料和雲計算的角度來認識hadoop。...