1. mapreduce是乙個海量資料的計算框架
**這個框架解決了以下問題:**
基於乙個多執行緒的模型 區別spark多程序
- 資料分布儲存
- 作業排程
- 容錯
- 機器間通訊
map: 把複雜的問題分解成簡單的問題
reduce:
2.mapreduce物理配置
合適的slot個數
-單記map reduce個數
-mapreduce.tasktracker.map,maximum(預設2)
-mapreduce.tasktracker.tasks.reduce.maxmum(預設2)
-記憶體限制
-cpu核數-1(乙個程序tasktracker )
-多機集群分離
磁碟狀況
-合適的單機多磁碟
-mapred.local.dir和dfs.data.dir
map個數為split的份數
壓縮檔案不可切分
非壓縮檔案可以切分
dfs.block.size決定block的大小 hadoop配置檔案中配置
Map Reduce 計算框架(2)
mapreduce的分割槽與reducetask的數量 在mapreduce中,通過指定分割槽,會將同乙個分割槽的資料傳送到同乙個reduce中,例如為了資料的統計,可以把一批類似的資料發 送到同乙個reduce當中去,在同乙個reduce中統計相同型別的資料,就可以實現類似資料的分割槽,統計等 直...
平行計算框架Mapreduce簡介
hadoop的三個元件,先有mapreduce 分布式計算模型 後有hdfs,知道hadoop才有了yarn,因此掌握mapreduce很有必要,雖然現在都是使用流式處理框架,如storm,spark等,但是這幾種框架的思想及原理都 於mapreduce mapreduce 思想 分而治之 map ...
分布式計算框架MapReduce
mapreduce思想在生活中處處可見。或多或少都曾接觸過這種思想。mapreduce的思想核心是 分而治之 適用於大量複雜的任務處理場景 大規模資料處理場景 map負責 分 即把複雜的任務分解為若干個 簡單的任務 來並行處理。可以進行拆分的前提是這些小任務可以平行計算,可以提高並行度。彼此間幾乎沒...