1.整體規模
2臺(namenode ha,resourcemanager ha,hmaster ha)
10臺(datanode,nodemanager,journalnode,regionserver)
1臺(hive,sqoop,oozie,hue)
3臺(zookeeper)
2.記憶體以及cpu
cpu:
32-64核
記憶體:64-128g
3.具體分配
namenode:16g以上
resourcemanager:一般2g,預設1g
hmaster:2g
----------------------------------------------20g
datanode:1g
nodemanager:1g
journalnode:1g
regionserver:一般是16g
----------------------------------------------20g
hive,sqoop,oozie,hue:1g
-----------------------------------------------1g
zk:1g
要求磁碟讀寫更快
-----------------------------------------------3g
yarn:
)yarn.nodemanager.resource.memory-mb:8192
預設是8g。
給定的是每個nm節點,任務執行允許分配的記憶體大小,工作中一般都會改大, 16*1024 或 24*1024
)yarn.nodemanager.resource.cpu-vcores:8
給定的是每個nm節點,任務執行允許分配的cpu大小,必須和memory-mb轉換為gb一樣的值一樣,工作中一般都會改大, 16 或 24
4.網路
萬兆千兆:這時,瓶頸出現在網路上
5.資料量
1~3千萬的資料量,大約400w
需要磁碟50g。
6.job資料
總數量在40個左右,mr程式30個左右,hive不到10個
7.案例
EFK kafka集群實戰
業務層可以直接寫入到kafka佇列中,不用擔心elasticsearch的寫入效率問題 架構圖 1 kafka是乙個訊息佇列伺服器,kafka服務又稱為broker,訊息傳送者稱為producer,訊息接收者稱為consumer,2 訊息以topic的形式傳送到broker,消費者訂閱topic,實...
大規模資料實戰
前後端處理分離解耦,前批處理 有向圖編譯,後端為有向圖優化 自動資源分配 自動監控 錯誤跟蹤 首先我們忘掉所有的框架,我們想做的業務設計其實是就是乙個count 乙個topk 衡量指標很簡單是sla 工程一致性模型,強一致性,弱一致性,最終一致性 cloud spanner 就是強一致性,業務級的資...
Zookeeper集群搭建實戰
環境依賴 使用centos7.5 使用如下三颱伺服器 192.168.43.128,192.168.43.129和192.168.43.130 1 zookeeper安裝 tar zxvf zookeeper 3.4.12.tar.gz c opt cd opt mv zookeeper 3.4.1...