Hadoop集群部署模型縱覽1

vsphere big data extensions（簡稱bde）支援多種部署方式來構建hadoop集群。按：

本文我們將著重介紹前2個部署模型，即儲存/計算繫結模型和單一計算模型。

通常情況下，我們為了保證hadoop集群資料本地化（data locality）的需要，會將儲存（datanode）和計算（tasktracker）服務部署在相同節點上。big data extensions也提供這樣的部署模式。

你可以使用bde的命令列工具，通過執行

cluster create --name

cluster_name

命令建立乙個基本的預設hadoop集群。

這類集群將包含乙個主節點（master），執行apache hadoop 1.2.1（bde 1.0內建的預設hadoop發行版）的namenode和jobtracker；三個工作節點（worker），執行datanode和tasktracker；乙個客戶端節點（clientnode），執行hadoop客戶端，pig和hive等。

這裡將datanode和tasktracker搭建在同乙個虛擬機器節點內部，這就是儲存和計算節點繫結模型。

如果你的生產或開發環境裡已經有了hdfs，並且有數以tb的分析型資料存在於其中，商業分析團隊根據新的業務需求，開發新功能去挖掘新的模式，這時您可以搭建乙個單一計算節點集群（compute-onlycluster）。

單一計算節點集群指的是只部署mapreduce服務，包括jobtracker和tasktracker，並且鏈結到某個已經存在的hdfs上。這樣做的好處有很多，首先可以避免搭建完整集群後的大規模資料拷貝或遷移，減少開發環境的等待時間，可以立即部署立即使用，非常適合臨時性的開發測試環境；其次，也可以在不同的計算集群之間做到效能隔離，安全性隔離和故障隔離；另外，在相容性滿足的情況下，您也可以使用第三方的商業版hdfs如isilon等等。

對於單一計算節點集群，您也可以使用動態伸縮功能（auto-elasiticity）來動態地調配您的資源。

下面列舉了這種集群部署的例項定義檔案，您可以使用它建立compute-onlycluster。externalhdfs欄位定義了要使用的已存在的hdfs服務。請將hadoop_jobtracker角色賦給master節點組，將hadoop_tasktracker角色賦給worker節點組。對於externalhdfs所指定的hdfs集群，預設情況下請設定port_num為8020。對於hadoop2.0集群，例如cdh4或是pivotalhd等，預設情況下請設定port_num為9000。在集群定義檔案中，externalhdfs欄位和hadoop_namenode，hadoop_datanode角色不能同時存在，否則可能會導致集群建立失敗或建立的集群無法正常執行。

}

]

}

如有任何問題，您可以發郵件至

[email protected]

。關於vsphere big data extensions:

作者介紹

張錦波vmware大資料解決方案工程師

目前負責vmware大資料解決方案的架構和實現，是大資料方面的技術專家。曾擔任vsphere big data extensions（bde）、serengeti等大資料專案的產品經理，負責集群管理，高可靠性和彈性伸縮等重要功能的規劃。在此之前就職於emc，從事資料庫管理等產品的研發工作。

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽3

相關推薦