本篇將從以下幾個方面闡述yarn
1、產生的原因
yarn的出現是由於hadoop1.0版本中的 jobtracker負載過重,導致計算上限極小,無法滿足大量資料工作的需求。
首先來看一看hadoop1.0的架構圖,以便整體了解
此時mapreduce計算模型是直接執行在hdfs上的,因此造成了以下的問題。
看一看hadoop1.0中的mapreduce架構圖
在當前版本中,jobtracker既要負責作業的分發、監控,還要負責資源的的排程,因此會存在極其嚴重的單點故障,而且作業的執行上限十分低,在此極限下很難完成極其大資料的操作。
在hadoop2.0中的架構圖是這樣的
此時將所有的計算模型放到了yarn之上
再來看看當前hadoop2.0版本下yarn的架構圖。
在hadoop2.0中,增加了yarn將作業管理和資源排程分離開,資源排程統一由resource manager管理,而作業的管控則交給了結點上的node manager,這樣實現了資源管理和作業管理的分離,增加了效率,可運算元據上限大幅上公升。
2、簡介
看一下yarn的執行時圖
可以看成是這樣的
yarn的核心服務由兩類長期執行的程序提供:管理資源resource manager和執行在集群所有節點上的啟動和監控容器的node managere,容器是用於執行特定的應用的程式的程序,每個容器有資源限制,詳細可以配置(如記憶體、cpu等)。
yarn的資源請求遵從優先最近原則,既本節點為首要選擇,其次為本機架,如再不滿足可取本集群任意節點。yarn的資源請求可在任意時刻提出,既動態申請。理想情況下,yarn的資源申請應立即給予滿足,但由於現實情況下資源有限所以乙個應用請求資源經常需要進行等待,這就涉及到yarn的資源排程方式,排程方式的區別決定了資源請求的速度。
資源排程的方式通常有三種:fifo排程器,容器排程器、公平排程器,以下分別是三種的排程圖。
通常使用後兩者,效率較高。
3、適用情況
當前基本上所有的計算框架都可執行在yarn上。
Yarn(一)Yarn通俗介紹
apache hadoop yarn yet another resource negotiator,另一種資源協調者 是一種新的 hadoop 資源管理器,它是乙個通用資源管理系統和排程平台,可為上層應用提供統一的資源管理和排程,它的引入為集群在利用率 資源統一管理和資料共享等方面帶來了巨大好處。...
yarn簡單介紹
一 yarn通俗介紹 apache hadoop yarn yet another resource negotiator,另一種資源協調者 是一 種新的 hadoop 資源管理器,它是乙個通用資源管理系統和排程平台,可為上層應用提供統 一的資源管理和排程,它的引入為集群在利用率 資源統一管理和資料...
YARN基本框架介紹
在之前的部落格 yarn與mrv1的對比 中介紹了yarn對hadoop 1.0的完善。本文將重點介紹下yarn各個模組的作用與yarn執行流程。負責與rm排程器協商以獲取資源 用container表示 將得到的任務進一步分配給內部的任務 資源的二次分配 與nm通訊以啟動 停止任務。監控所有任務執行...