vsphere big data extensions(簡稱bde)支援多種部署方式來構建hadoop集群。按:
本文我們將著重介紹前2個部署模型,即儲存/計算繫結模型和單一計算模型。
通常情況下,我們為了保證hadoop集群資料本地化(data locality)的需要,會將儲存(datanode)和計算(tasktracker)服務部署在相同節點上。big data extensions也提供這樣的部署模式。
你可以使用bde的命令列工具,通過執行
cluster create --name
cluster_name
命令建立乙個基本的預設hadoop集群。
這類集群將包含乙個主節點(master),執行apache hadoop 1.2.1(bde 1.0內建的預設hadoop發行版)的namenode和jobtracker;三個工作節點(worker),執行datanode和tasktracker;乙個客戶端節點(clientnode),執行hadoop客戶端,pig和hive等。
這裡將datanode和tasktracker搭建在同乙個虛擬機器節點內部,這就是儲存和計算節點繫結模型。
如果你的生產或開發環境裡已經有了hdfs,並且有數以tb的分析型資料存在於其中,商業分析團隊根據新的業務需求,開發新功能去挖掘新的模式,這時您可以搭建乙個單一計算節點集群(compute-onlycluster)。
單一計算節點集群指的是只部署mapreduce服務,包括jobtracker和tasktracker,並且鏈結到某個已經存在的hdfs上。這樣做的好處有很多,首先可以避免搭建完整集群後的大規模資料拷貝或遷移,減少開發環境的等待時間,可以立即部署立即使用,非常適合臨時性的開發測試環境;其次,也可以在不同的計算集群之間做到效能隔離,安全性隔離和故障隔離;另外,在相容性滿足的情況下,您也可以使用第三方的商業版hdfs如isilon等等。
對於單一計算節點集群,您也可以使用動態伸縮功能(auto-elasiticity)來動態地調配您的資源。
下面列舉了這種集群部署的例項定義檔案,您可以使用它建立compute-onlycluster。externalhdfs欄位定義了要使用的已存在的hdfs服務。請將hadoop_jobtracker角色賦給master節點組,將hadoop_tasktracker角色賦給worker節點組。對於externalhdfs所指定的hdfs集群,預設情況下請設定port_num為8020。對於hadoop2.0集群,例如cdh4或是pivotalhd等,預設情況下請設定port_num為9000。在集群定義檔案中,externalhdfs欄位和hadoop_namenode,hadoop_datanode角色不能同時存在,否則可能會導致集群建立失敗或建立的集群無法正常執行。
,
,
},
,
}
]
}
如有任何問題,您可以發郵件至
。關於vsphere big data extensions:
作者介紹
張錦波vmware大資料解決方案工程師
目前負責vmware大資料解決方案的架構和實現,是大資料方面的技術專家。曾擔任vsphere big data extensions(bde)、serengeti等大資料專案的產品經理,負責集群管理,高可靠性和彈性伸縮等重要功能的規劃。在此之前就職於emc,從事資料庫管理等產品的研發工作。
Hadoop集群部署模型縱覽1
vsphere big data extensions 簡稱bde 支援多種部署方式來構建hadoop集群。按 本文我們將著重介紹前2個部署模型,即儲存 計算繫結模型和單一計算模型。通常情況下,我們為了保證hadoop集群資料本地化 data locality 的需要,會將儲存 datanode 和...
Hadoop集群部署模型縱覽1
vsphere big data extensions 簡稱bde 支援多種部署方式來構建hadoop集群。按 本文我們將著重介紹前2個部署模型,即儲存 計算繫結模型和單一計算模型。通常情況下,我們為了保證hadoop集群資料本地化 data locality 的需要,會將儲存 datanode 和...
Hadoop集群部署模型縱覽3
在前兩篇文章中,我們介紹了hadoop集群部署的3個方式,即 儲存 計算繫結和單一計算的hadoop集群 儲存 計算分離的hadoop集群部署 本文我們著重講解最後一種方式,即構建自定義的hadoop集群,作為對使用者更為開放的乙個部署選項。如下圖所示,如果不採用虛擬化技術進行整合,資金投入 cap...