park比mapreduce快的原因
spark是基於記憶體的,而mapreduce是基於磁碟的迭代
mapreduce的設設計:中間結果儲存在檔案中,提高了可靠性,減少了記憶體占用。但是犧牲了效能。
spark的設計:資料在記憶體中進行交換,要快一些,但是記憶體這個東西,可靠性不如磁碟。所以效能方面比mapreduce要好。
dag計算模型在迭代計算上還是比mapreduce的效率更高
有向無環圖是指:乙個圖從頂點出發,無法再回到原點,那麼這種圖叫做有向無環圖。
dag計算模型在spark任務排程
spark比mapreduce快的根本原因在於dag計算模型,一般而言,dag比mapreduce在大多數情況下可以減少shuffle次數,spark的dag相當於乙個改進版的mapreduce,如果計算不涉及其他節點進行資料交換,spark可以在記憶體中一次性完成這些操作,也就是中間結果無需落地磁碟,減少了磁碟io的操作。但是,如果計算過程中涉及到計算交換,spark也會把shuffle的資料寫磁碟。
spark比mapreduce快的主要原因是spark將反覆用到的資料cache到記憶體中,減少資料載入耗時。
spark是粗粒度資源排程,mapreduce是細粒度資源排程
rdd的五大特性
rdd是由一系列的partition組成
每乙個函式或者運算元實際上是作用在partition上的,
rdd之間具有相互依賴關係,
分割槽器是作用在(k,v)格式的rdd上的,分割槽器作用在shuffle的written階段,決定了每一條記錄寫入哪乙個分割槽
(k,v)格式的rdd:如果rdd中的陣列是由二元物件組成的,這個rdd就是(k,v)格式的rdd
每個rdd都會提供最佳的計算位置,有利於計算資料的本地化,符合大資料的計算原則,計算向資料移動。
Spark與MapReduce的區別
spark中最核心的概念是rdd 彈性分布式資料集 近年來,隨著資料量的不斷增長,分布式集群平行計算 如mapreduce dryad等 被廣泛運用於處理日益增長的資料。這些設計優秀的計算模型大都具有容錯性好 可擴充套件性強 負載平衡 程式設計方法簡單等優點,從而使得它們受到眾多企業的青睞,被大多數...
spark相比MapReduce的優勢
spark 比hadoop快的原因 資料本地性 排程優化 傳輸優化,最主要的是基於記憶體計算和引入了dag。hadoop的計算結果在磁碟中,spark是在記憶體中 資料計算任務需要多個步驟時,hadoop需要引入oozie等工具,但是spark有dag hadoop中,每乙個job 的計算結果都會儲...
Spark相比MapReduce的優勢
mapreduce是apache hadoop中用於大規模資料集計算的平行計算框架,目前被廣泛應用於企業的離線資料處理上。但是因為種種原因,mapreduce的效能並不理想。而spark作為資料處理框架界的後起之秀,很多方面都超過了mapreduce。下面來列出mapreduce的不足以及spark...