大資料spark應用的結構。
driver + executor
driver:執行sparkcontext上下文的地方(jvm),sparkcontext進行初始化的地方(jvm),進行rdd初始化的地方(jvm),task執行資源申請和rdd job/task排程的排程
一般我們認為main方法的位置就是driver(main方法是sparkcontext的構建)
乙個應用只有乙個driver
executor:
具體task執行的地方,乙個executor可以執行多個task任務,乙個應用可以有多個executor
程序方面問題:
local模式:
driver 和 executor執行在同乙個程序中 sparksubmit,以執行緒的方式來區分
standalone:
driver:
在sparksubmit程序上
executor:
coarsegrainedexecutorbackend
注意:spark-submit指令碼的一次執行就是乙個spark應用(spark-shelld底層就是spark-submit)
乙個應用可以包含多個job(>=0)
乙個job裡面可以包含多個stage(>0)
乙個stage可以包含多個task(>0)
task就是最小的執行單位,是在executor處理對應分割槽資料的執行緒
task的數量和rdd的分割槽數是一致的。
大資料 Spark(八)
dag directed acyclic graph 叫做有向無環圖 有方向,無閉環,代表著資料的流向 原始的rdd通過一系列的轉換就形成了dag。下圖是基於單詞統計邏輯得到的dag有向無環圖 乙個job會被拆分為多組task,每組任務被稱為乙個stage。stage表示不同的排程階段,乙個spar...
大資料框架 spark
rdd 彈性分布式資料集。operation transformation 和action,乙個返回rdd,乙個返回值。lineage rdd之間的依賴關係,如何演變過來。partition rdd分割槽,按block切分 narrow dependency 窄依賴 父rdd全進入子rdd wide...
Spark 大資料的電花火石!
什麼是spark?可能你很多年前就使用過spark,反正當年我四六級單詞都是用的星火系列,沒錯,星火系列的洋名就是spark。當然這裡說的spark指的是apache spark,apache spark is a fast and general engine for large scale da...