目前而言,不收費的hadoop版本主要有三個(均是國外廠商),分別是:
apache(最原始的版本,所有發行版均基於這個版本進行改進)、
cloudera版本(cloudera』s distribution including apache hadoop,簡稱cdh)、
hortonworks版本(hortonworks data platform,簡稱「hdp」),大多數選擇cdh版本,部分選擇hdp版本。
大資料集群管理方式分為手工方式(apache hadoop)和工具方式(ambari + hdp 或cloudera manger + cdh)。
在hadoop的早期版本,基本啟動包含的節點為
secondarynamenode(hdfs)
jobtracker
tasktracker
datanode(hdfs)
namenode(hdfs)
現在包含的節點為
secondarynamenode(hdfs)
nodemanager
resourcemanager
namenode(hdfs)
datanode(hdfs)
hadoop的mapreduce的map task和reduce task都是程序級別的;而spark task則是基於執行緒模型的。
ranger支援對以下的hadoop元件:hdfs, hbase, hive, yarn, knox, storm, solr, kafka。
外部的大資料元件通過相應的ranger外掛程式對管理的資源執行授權檢查。授權的依據就是儲存於db上的策略,ranger外掛程式會定期從ranger admin出獲取最新的policy,預設的輪詢週期是30s。
一般使用solr進行日誌儲存。
大資料技術生態體系
1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...
大資料技術生態體系
大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdf...
大資料技術生態體系
大資料技術生態體系結構如下 圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具,主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞,可以將乙個關係型資料庫 例如 mysql,oracle 等 中的資料導進到hadoop的hdfs中,也可以將hdfs的資料...