spark框架體系及spark和MR的區別

2022-08-28 13:21:15 字數 774 閱讀 5150

2019-12-11

spark的框架體系

三個核心元件:sparkcore  sparksql  sparkstreaming

spark有三種部署模式:stanalone  yarn  messos

spark和mapreduce之間區別 *****

1.spark把運算中資料放到記憶體中,迭代計算效率會更高;mr的中間結果需要落地磁碟,所以大量的磁碟io操作,會影響效能

2.spark容錯性高,它通過彈性分布資料集rdd來實現高容錯,rdd是一組分布式存在節點記憶體中唯讀性的資料,這些集合是彈性,某一部分資料丟失或出錯,可以通過整個資料集的計算流程的血緣來實現重建;mr的容錯需要重新計算,成本高。

3.spark更加通用,spark提供了transformation和action這兩大類多功能api,另外還有流式處理sparkstreaming模組,機器學習、圖計算;mr只提供map和reduce方法,沒有其他模組,mr其實是有機器學習的基本上沒有人使用。

4.spark框架的生態更加豐富,首先由rdd、血緣lineage,執行時有有向無環圖dag,stage劃分等等,很多時候spark作業需要在不同場景上執行,此時可以根據不同場景進行調優;mr計算框架相對簡單,對效能也相對較弱,單執行穩定,適合長時間在後台執行。

spark官方文件 Spark快速開發框架

本人從 2014 年開始使用 apache spark,基於以往專案經驗,為了降低專案開發複雜度,減少開發成本,開發了 light spark 框架。本框架遮蔽了底層技術細節,讓開發人員面向 sql 程式設計,更專注於業務邏輯,減少開發過程中 debug 工作,讓 apache spark 更方便使...

spark子框架彙總

sql 實時資料流處理 機器學習 圖計算 4大子框架 1圖計算graphx,下面是一棧式解決graphx和graphlab的對比 相比之下 雖然graphx沒有graphlab快 但一棧式解決讓整體更好 圖儲存模式 巨型圖的儲存有邊分割 每個頂點都儲存一次,但邊可能被分到不同的機器,如果基於邊的計算...

大資料框架 spark

rdd 彈性分布式資料集。operation transformation 和action,乙個返回rdd,乙個返回值。lineage rdd之間的依賴關係,如何演變過來。partition rdd分割槽,按block切分 narrow dependency 窄依賴 父rdd全進入子rdd wide...