在driver program中新建sparkcontext(包含sparkcontext的程式稱為driver program); ;
2、sparkcontext向資源管理器申請執行executor資源,並啟動standaloneexecutorbackend,executor向sparkcontent申請task;
應用**將會被傳送到各個executor;
4、sparkcontext構建rdd dag圖,將rdd dag圖分解成stage dag圖,將stage提交給taskscheduler,最後由taskscheduler將
task傳送給executor執行
;5、task在executor上執行,執行完畢後釋放所有資源;
spark執行架構特點:
2、spark並不關心底層用什麼cluster manager在運作,它只關心是否能拿到executor並能保持相互通訊即可,因為最終的task是執行在executor上;
4、task採用了資料本地性和推測執行的優化機制;
詳見
Spark執行架構
job 包含多個task組成的平行計算,乙個dag觸發的作業,由action運算元觸發,在sparkcontext中通過runjob方法向spark提交job stage job的排程單位,每個job會根據rdd的寬依賴關係被切分成很多stage,每個stage中包含一組相同的task,這組task...
Spark執行架構
spark執行架構要背下來 driver program 執行main函式的程序,並且建立了乙個sparkcontext cluster manager 乙個從cluster申請資源的外部服務 deploy mode 區分driver程序跑在 client模式下,driver跑在本地 cluster...
Spark執行架構
1.基本概念 rdd 是resillient distributed dataset 彈性分布式資料集 的簡稱,是分布式記憶體的乙個抽象概念,提供了一種高度受限的共享記憶體模型 dag 是directed acyclic graph 有向無環圖 的簡稱,反映rdd之間的依賴關係 executor 是...