YARN上的計算框架大類概念

2021-10-08 12:22:43 字數 843 閱讀 2481

目前基於hadoop2.0執行在yarn上的計算框架大類

1.離線計算框架:mapreduce

2.dag計算框架:tez

3.流式計算框架:storm

4.記憶體計算框架:spark

將計算過程分成兩部分(map和reduce),輸入的資料集是靜態的,不能動態變化。

map階段並行處理輸入資料(map task將資料寫的本地磁碟)

reduce階段對map結果彙總(reduce task從每個map task上讀取乙份資料)

shuffle連線兩個階段

mapreduce僅適合離線批處理,但是啟動開銷大,過多使用磁碟導致效率低下

多個作業之間存在資料依賴關係,並形成乙個依賴關係有向圖,該圖的計算稱為「dag計算」

同mapreduce區別,左邊mapreduce,右邊tez(mapreduce會多磁碟io)

指被處理的資料像流水一樣不斷流入系統,而系統需要針對每條資料進行實時處理和計算,並永不停止(直至使用者顯式殺死程序)。

克服mapreduce在迭代式計算和互動式計算變化的不足,引入rdd資料表示模型(resilient distributed datasets),rdd是乙個有容錯機制,可以被並行操作的資料集合,能夠被快取到記憶體或磁碟上。

MapReduce框架在Yarn上的詳解

在yarn 上乙個mapreduce 任務叫做乙個 job。乙個 job的主程式在 mapreduce 框架上實現的應用名稱叫 這是乙個mapreduce 為提高shuffle 效率reduce 階段會在 map階段結束之前就開始。直到所有 maptask 完成之後 reducetask 才能完成,...

MapReduce框架在Yarn上的具體解釋

在yarn 上乙個mapreduce 任務叫做乙個 job。乙個job 的主程式在 mapreduce 框架上實現的應用名稱叫 這是乙個mapreduce 為提高shuffle 效率reduce 階段會在 map階段結束之前就開始。直到全部 maptask 完畢之後 reducetask 才幹完畢。...

Yarn的基本概念

1.hadoop1.0與hadoop2.0結構 1.應用程式的master,每乙個應用對應乙個am,在使用者提交乙個應用程式時,乙個am的輕量型程序例項會啟動,am協調應用程式內的所有任務的執行 2.負責乙個job生命週期內的所有工作,類似舊的jobtracker 3.每乙個job都有乙個am,執行...