yarn架構
1 rm(resourcemanager) + n nm(nodemanager)
resourcemanager的職責: 乙個集群active狀態的rm只有乙個,負責整個集群的資源管理和排程
1)處理客戶端的請求(啟動/殺死)
3)監控nm
4)系統的資源分配和排程
nodemanager:整個集群中有n個,負責單個節點的資源管理和使用以及task的運**況
1)定期向rm匯報本節點的資源使用請求和各個container的執行狀態
2)接收並處理rm的container啟停的各種命令
3)單個節點的資源管理和任務管理
1)資料切分
2)為應用程式向rm申請資源(container),並分配給內部任務
3)與nm通訊以啟停task, task是執行在container中的
4)task的監控和容錯
container:
對任務運**況的描述:cpu、memory、環境變數
yarn執行流程
1)使用者向yarn提交作業
2)rm為該作業分配第乙個container(am)
3)rm會與對應的nm通訊,要求nm在這個container上啟動應用程式的am
4) am首先向rm註冊,然後am將為各個任務申請資源,並監控運**況
5)am採用輪訓的方式通過rpc協議向rm申請和領取資源
6)am申請到資源以後,便和相應的nm通訊,要求nm啟動任務
7)nm啟動我們作業對應的task
yarn環境搭建
mapred-site.xml
mapreduce.framework.name
yarn
yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
啟動yarn:sbin/start-yarn.sh
驗證是否啟動成功
停止yarn: sbin/stop-yarn.sh
提交mr作業到yarn上執行: wc
當我們再次執行該作業時,會報錯:
filealreadyexist***ception:
output directory hdfs://hadoop001:8020/output/wc already exists
大資料架構分析
最近,我再整理學習的大資料的架構知識。大資料,只是的對大量數量的儲存,分析 計算 應用 處理 大資料採取非關係型儲存。monogo居多。比較系統。1.kafak分布式寫入採集系統。2.hbase寫入資訊。3.storm處理資料。4.結果儲存mysql。日誌系統 1.日誌寫入。2.hbase儲存。3....
大資料架構分析
1.典型應用 ab test 平台 指標計算 指標 orderid,passenger 等.cube 演算法,快速生成 n 個維度的資料,可隨意的下探上放.其他細節 見個人日記 監控統計 報表展現 異常檢測 餘弦定理 apollo採用箱線圖 boxplot 2.cboard 前端展現平台,拖拽 維度...
初探大資料 開發環境介紹 實戰一
使用環境 1 centos 6.4 2 hadoop版本對比及選擇 生產較多的cdh版本 cdh5.7.0 cdh 5.7.0 生產或者測試環境選擇對應cdh版本時,一定要採用尾號是一樣的版本 為什麼很多公司選擇hadoop作為大資料平台的解決方案?1 原始碼開源 2 社群活躍 參與者很多 spar...