二、mapreduce與spark相比,有哪些異同點:
1、基本原理上:
(1) mapreduce:基於磁碟的大資料批量處理系統
(2)spark:基於rdd(彈性分布式資料集)資料處理,顯示將rdd資料儲存到磁碟和記憶體中。
2、模型上:
(1) mapreducel可以處理超大規模的資料,適合日誌分析挖掘等較少的迭代的長任務需求,結合了資料的分布式的計算。
(2) spark:適合資料的挖掘,機器學習等多輪迭代式計算任務。
在spark中,乙個應用程式包含多個job任務
在mapreduce中,乙個job任務就是乙個應用
spark相比MapReduce的優勢
spark 比hadoop快的原因 資料本地性 排程優化 傳輸優化,最主要的是基於記憶體計算和引入了dag。hadoop的計算結果在磁碟中,spark是在記憶體中 資料計算任務需要多個步驟時,hadoop需要引入oozie等工具,但是spark有dag hadoop中,每乙個job 的計算結果都會儲...
Spark相比MapReduce的優勢
mapreduce是apache hadoop中用於大規模資料集計算的平行計算框架,目前被廣泛應用於企業的離線資料處理上。但是因為種種原因,mapreduce的效能並不理想。而spark作為資料處理框架界的後起之秀,很多方面都超過了mapreduce。下面來列出mapreduce的不足以及spark...
spark相比hadoop的 優勢如下
1 中間結果輸出 基於mr的計算引擎通常會將中間結果輸出到磁碟上,進行儲存和容錯。處於任務管道承接的考慮,當一些查詢翻譯到mr任務時,旺旺會產生多個stage,而這些串聯的stage又依賴於底層檔案系統 如hdfs 來儲存每乙個stage的輸出結果。spark將執行模型抽象為通用的有向無環圖,dag...