目錄
job
(作業) : 乙個mapreduce
程式稱為乙個job。
task
(任務): task是乙個程序,負責某項計算。
map
(map階段):map是mapreduce程式執行的第乙個階段,map階段的目的是將輸入的資料,進行切分。將乙個大檔案,切分為若干小部分!切分後,每個部分稱為1片(split
),每片資料會交給乙個task(程序),task負責map階段程式的計算,稱為maptask
。在乙個mr程式的map階段,會啟動n(取決於切片數)個maptask。每個maptask是並行執行。
reduce
(reduce階段): reduce是mapreduce程式執行的第二個階段(最後乙個階段)!reduce階段的目的是將map階段的每個maptask計
算後的結果進行合併彙總!得到最終結果!reduce階段是可選的,task負責reduce階段程式的計算,稱為reducetask,乙個job可以通過設定,啟動n個reducetask,這些reducetask也是並行執行!每個reducetask最終都會產生乙個結果。
②reducer
: reduce階段核心的處理邏輯
③inputformat
:輸入格式
④recordreader
: 記錄讀取器
⑤outputformat
: 輸出格式
⑥recordwriter
: 記錄寫出器
⑦partitioner
: 分割槽器
目的: 乙個reducetask只會處理乙個分割槽的資料!
Map Reduce 計算框架(2)
mapreduce的分割槽與reducetask的數量 在mapreduce中,通過指定分割槽,會將同乙個分割槽的資料傳送到同乙個reduce中,例如為了資料的統計,可以把一批類似的資料發 送到同乙個reduce當中去,在同乙個reduce中統計相同型別的資料,就可以實現類似資料的分割槽,統計等 直...
Mapreduce 計算框架 功能原理
1.mapreduce是乙個海量資料的計算框架 這個框架解決了以下問題 基於乙個多執行緒的模型 區別spark多程序 資料分布儲存 作業排程 容錯 機器間通訊 map 把複雜的問題分解成簡單的問題 reduce 2.mapreduce物理配置 合適的slot個數 單記map reduce個數 map...
平行計算框架Mapreduce簡介
hadoop的三個元件,先有mapreduce 分布式計算模型 後有hdfs,知道hadoop才有了yarn,因此掌握mapreduce很有必要,雖然現在都是使用流式處理框架,如storm,spark等,但是這幾種框架的思想及原理都 於mapreduce mapreduce 思想 分而治之 map ...