hadoop有兩個核心模組,分布式儲存模組hdfs和分布式計算模組mapreduce
spark本身並沒有提供分布式檔案系統,因此spark的分析大多依賴於hadoop的分布式檔案系統hdfs
hadoop的mapreduce與spark都可以進行資料計算,而相比於mapreduce,spark的速度更快並且提供的功能更加豐富
關係圖如下:
hadoop、hive、spark 之間是什麼關係、什麼是yarn
lcluster manager:指的是在集群上獲取資源的外部服務,目前有:
ø standalone:spark原生的資源管理,由master負責資源的分配;
ø hadoop yarn:由yarn中的resourcemanager負責資源的分配;
l作業(job):包含多個task組成的平行計算,往往由spark action催生,乙個job包含多個rdd及作用於相應rdd上的各種operation;
l階段(stage):每個job會被拆分很多組task,每組任務被稱為stage,也可稱taskset,乙個作業分為多個階段;
l任務(task): 被送到某個executor上的工作任務;
Spark執行架構
job 包含多個task組成的平行計算,乙個dag觸發的作業,由action運算元觸發,在sparkcontext中通過runjob方法向spark提交job stage job的排程單位,每個job會根據rdd的寬依賴關係被切分成很多stage,每個stage中包含一組相同的task,這組task...
Spark執行架構
在driver program中新建sparkcontext 包含sparkcontext的程式稱為driver program 2 sparkcontext向資源管理器申請執行executor資源,並啟動standaloneexecutorbackend,executor向sparkcontent...
Spark執行架構
spark執行架構要背下來 driver program 執行main函式的程序,並且建立了乙個sparkcontext cluster manager 乙個從cluster申請資源的外部服務 deploy mode 區分driver程序跑在 client模式下,driver跑在本地 cluster...