hadoop集群部署,記憶體,儲存配置

2021-09-30 12:37:35 字數 1453 閱讀 8849

翻譯自: 和

每100萬塊儲存,需要1gb的namenode,假若集群中有100個節點,則64gb的記憶體是足夠的。同時建議,在namenode和jobtracker上都配置ha,cdh4已實現此功能。

<1>12-24塊1-4tb的磁碟,簡單磁碟**

<2>2個四核/將十六進製制/八核處理器,2-2.5g hz以上

<3>65-248 gb ram

<4>千兆乙太網或萬兆乙太網

<1>4-6塊 1tb的磁碟(1塊作為作業系統,2塊作為raid 1 fs image(檔案系統映象?),1塊為zookeeper,1塊為journal node))

<2>2個四核/將十六進製制/八核處理器。2-2.5g hz以上

<3>64-128g ram

<4>千兆或萬兆乙太網

輕量級計算配置(每台機器 1u):

兩顆六核心處理器,24-64gb記憶體和8個1-2tb的磁碟

均衡計算配置(每台機器1u)

兩顆六核心處理器,48-128gb記憶體和12-16個1-2tb的磁碟(用主機板控制器直接掛載)

重度儲存配置(每台機器2u):

如何決定

1 儲存需求

>共享需求

>namenode和secondnamenode

>datanode需求

(1)  共享需求

作業系統分割槽,作業系統日誌分割槽。這些都是固定的,正常分配

(2)  namenode和second namenode

它們必須使用相同的配置,相同的硬體。 1tb的寫檔案分割槽足夠。

(3)  datanode

sas 6gb/s 配置在簡單磁碟**的控制器

sata ii  7200 rpm 的1-3tb的磁碟

不要在datanode上配置raid,hdfs自己有提供。

注意:每塊磁碟30%的容量都留作非hdfs使用

如何決定namenode 和second namenode記憶體,公式如下:

second namenode記憶體

= namenode記憶體

=hdfs集群管理記憶體+2gbnamenode 處理+4gb(作業系統)

如何決定datanode記憶體

datanode的記憶體需求取決於其執行的job,對於i/o頻繁的job,每個物理核 2gb-4gb,對於cpu消耗型job,每個物理核6-8gb。無論哪種情況,必須再額外加上以下:

>2gbdatanode 處理,用來管理hdfs塊。

>2gbtasktracker處理,用來管理執行在其上的task

>4gb 作業系統

Hadoop集群Master節點部署方案

更改 etc hosts,新增所有集群機器ip到主機名對映 拷貝hadoop包hadoop.tar.gz到 usr local md5sum校驗hadoop.tar.gz包 md5sum hadoop.tar.gz 解壓hadoop.tar.gz包 tar xzf hadoop.tar.gz 更改h...

Hadoop集群部署模型縱覽1

vsphere big data extensions 簡稱bde 支援多種部署方式來構建hadoop集群。按 本文我們將著重介紹前2個部署模型,即儲存 計算繫結模型和單一計算模型。通常情況下,我們為了保證hadoop集群資料本地化 data locality 的需要,會將儲存 datanode 和...

Hadoop集群部署模型縱覽3

在前兩篇文章中,我們介紹了hadoop集群部署的3個方式,即 儲存 計算繫結和單一計算的hadoop集群 儲存 計算分離的hadoop集群部署 本文我們著重講解最後一種方式,即構建自定義的hadoop集群,作為對使用者更為開放的乙個部署選項。如下圖所示,如果不採用虛擬化技術進行整合,資金投入 cap...