Hadoop執行流程分析

2021-08-26 09:58:54 字數 641 閱讀 7780

1. 概述

hadoop mapreduce基於「分而治之」的思想,將計算任務抽象成map和reduce兩個計算過程,計算流程如下:

map過程包括:

1). 從磁碟讀入資料

2). 執行map任務

3). 寫結果到磁碟

reduce過程包括:

1). shuffle&sort

2). 執行reduce任務

3). 寫結果到磁碟

2. 分析

這個階段通過將資料寫入磁碟提高了系統的可靠性,但降低了效能。

在reduce的第乙個階段,hadoop框架會根據map結果中的key,將相關的結果傳輸到某乙個reducer上,這個步驟中的遠端傳輸使用了http協議。

3. 優化

對於map的第三個階段,hop(hadoop online prototype

)在保留hadoop的容錯性前提下,使資料在各個任務間以

管道的方式互動,可增加任務的併發性,縮短響應時間。sphere使用流處理計算模型,在資料由乙個spe流向另乙個spe的過程中,沒有寫入磁碟。

在reduce的shuffle階段,資料傳輸採用http協議,這樣降低了系統的傳輸系統,可以考慮採用udt協議(sector/sphere採用)。

4. 參考文獻

hadoop之MapReduce執行流程

mapreduce執行流程 1 執行mapred程式 不是hadoop節點也可以提交程式 2 本次執行將生成乙個job,於是jobclient向jobtracker 協調作業執行 申請乙個jobid以標識這個job 3 jobclient將job所需要的資源提交到hdfs中乙個以jobid命名的目錄...

Hive執行流程分析

先看0.7.1的執行過程 hive select from table02 where id 500000 對於這樣的乙個查詢,hive從clidriver這個類的main函式開始 clidriver.main string args clisessionstate ss new clisessio...

make menuconfig 執行流程分析

linux 2.6.20.6 make menuconfig 當在頂層目錄執行 make menuconfig 會執行頂層makefile 第415行的規則 config config scripts basic outputmakefile force q mkdir p include linu...