apache hadoop
是乙個開源的、可靠的、靈活的、分布式的計算系統(來自官網)
主要受google
三篇**的啟發(
gfs、
mapreduce
、bigtable
)hadoop
海量資料的儲存(hdfs)hadoop distributed file system
海量資料的分析(mapreduce)
hadoop2.0後出現
yarn
,所有計算框架執行於
yarn
上,只要符合一定的介面
storm、
spark
,mapreduce
等都可以執行在
yarn
yarn的出現使
hadoop
可以支援多種計算框架,而不僅僅是mr
雲計算與hadoop
之間的關係:
雲計算由三部分:
從底向上分別是:iaas
、paas
、saas
iaas:基礎設施即服務(
openstack
、cloudstack
等)paas:平台即服務(
,apache hadoop
)saas:軟體即服務,典型實現有:
可以看出apache hadoop
只是雲計算中的某一層中的實現而已
hadoop主要組成:
hdfs:分布式檔案系統
特點:
良好的擴充套件性
高容錯性,可靠性:通過備份提高
適用於pb
以上級別的儲存
mapreduce:平行計算框架
特點:易於程式設計(暴露給使用者非常少的介面)
良好的擴充套件性、高容錯性
適合pb
級以上海量資料的離線處理(各種開銷大)
yarn:
解決了mr在一些方面的短板
擴充套件受限、單點故障、難以支援mr之外的計算
多計算框架各自為站,資料共享困難(mr離線計算框架、storm實時計算框架、spark記憶體計算框架)
yarn的出現使得多種計算框架都執行於yarn上,使hadoop可以支援多種框架
hbase
--google bittable
的轉殖版
是乙個稀疏的、長期儲存的、多維度得到排序對映表,這張表的索引是行關鍵字,列關鍵字和時間戳。
表中的每個值是乙個純字元陣列,資料都是字串,沒有型別。
高可靠性、高效能、面向列、良好的擴充套件性、
hiv:
是建立在
hadoop
上(hdfs+mr)
的資料倉儲基礎構架
定義了一種類
sql的查詢語言
-----hql
hive
是基於mapreduce
,所以通常進行離線分析
hive
可以將使用者寫的
sql提交成
mapreduce
作業,所以直接寫
sql就可以完成,從而不用寫
mapreduce
作業pig:
是基於hadoop
的資料流系統,也是類似查詢
定義了一種資料流語言----pig latin
,相比於
hql更強大
zookeeper:
相當於整個集群的管理員,
zookeeper
是chubby
轉殖版具體架構:
可配置多個
servers
,乙個掛掉乙個,不會停止對外服務
內部用到乙個特殊的協議,協議的要求是server
的個數必須是奇數個(3、
5)特點是:統一命名、狀態同步、集群管理、配置同步
sqoop----資料同步工具
連線hadoop
與傳統資料庫之間的橋梁,支援多種資料庫,包括mysql、db2等
其實本質上是乙個mapreduce
程式,充分利用了mr分布式並行的特點
可並行的匯入匯出(即從hadoop
到傳統資料庫或者從傳統資料庫匯入到hadoop)
主要版本:
apache:官方版本、原生態版
cdh(cloudera):對a
pache
進行商業化的封裝支援、有商業支援、使用最多的版本
hdp(hortonworks data platform):hortonworks公司發行版本
hadoop學習筆記之zookeeper 安裝配置
zookeeper是乙個分布式的,開放原始碼的分布式應用程式協調服務,是google的chubby乙個開源的實現,是hadoop和hbase的重要元件。它是乙個為分布式應用提供一致性服務的軟體,提供的功能包括 配置維護 網域名稱服務 分布式同步 組服務等。由於工程師不能很好地使用鎖機制以及基於訊息協...
Hadoop學習筆記之YARN
yarn service框架提供了一流的支援和api,可以在yarn中本地化時間執行的服務。簡而言之 in a nutshell 它作為乙個容器編排平台,用於管理yarn上的貨櫃化服務。它支援yarn中的docker容器和傳統的基於程序的容器。該框架的職責包括執行配置解決方案和安裝,生命週期管理 如...
《Hadoop權威指南4》第1章 初識Hadoop
1.6 apache hadoop發展簡史 1.7 本書包含的內容 未來的資料很大,個人,公共網頁的資料等等都很多。大資料勝於好演算法。硬碟的讀寫速度很慢跟不上資料儲存分析的需要。hadoop的,hdfs和mapreduce解決了資料的儲存和分析的問題。mapreduce進行每一次查詢時要處理整個資...