Hadoop集群部署模型縱覽3

在前兩篇文章中，我們介紹了hadoop集群部署的3個方式，即《儲存/計算繫結和單一計算的hadoop集群》，《儲存/計算分離的hadoop集群部署》。本文我們著重講解最後一種方式，即構建自定義的hadoop集群，作為對使用者更為開放的乙個部署選項。

如下圖所示，如果不採用虛擬化技術進行整合，資金投入（capex）意味著每個集群最大負載時硬體投資總和。但是通過整合，可以將三個集群共享資源池，capex意味著通盤最大負載。而且目前虛擬化可以帶來2:1到4:1的整合比，極大的減少了資本投入。

根據三個部門的需求，我們搭建統一的一套hdfs儲存集群，分別為三個計算集群提供儲存服務。這樣避免了搭建三個儲存集群所引發的跨網路的大量資料遷移和拷貝工作，讓需要維護的儲存集群從三個減少到乙個，從而減少操作成本opex，也節省了原來需要採買大量儲存器的資本投入capex。另外，由於b部門對時間延遲要求高，我們將其搭建成具有虛擬化節點感知的滿足資料本地性要求的計算集群（具體方法請參見本部落格「包含節點網路拓撲和主機排布策略的儲存/計算分離模型」）。另外a、c部門的集群搭建成單一計算節點集群，並指向上述統一的hdfs集群。這樣搭建，就保證了不同計算集群之間的資源隔離、故障隔離、配置隔離和安全隔離。

當然您也可以根據您的具體業務需求，將hadoop集群和其他應用一併整合。

注：本文所使用的所有集群定義檔案和命令都基於bde1.0 ga build。

如有任何問題，您可以發郵件至bigdata_apac@vmware.com。

關於vsphere big data extensions:

作者介紹

張錦波vmware大資料解決方案工程師

目前負責vmware大資料解決方案的架構和實現，是大資料方面的技術專家。曾擔任vsphere big data extensions（bde）、serengeti等大資料專案的產品經理，負責集群管理，高可靠性和彈性伸縮等重要功能的規劃。在此之前就職於emc，從事資料庫管理等產品的研發工作。

Hadoop集群部署模型縱覽3

Hadoop集群部署模型縱覽3

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽3

Hadoop集群部署模型縱覽3

Hadoop集群部署模型縱覽1

Hadoop集群部署模型縱覽1

相關推薦