spark應用提交後經歷了一系列的轉換,最後成為task在每個節點上執行.
每個任務對應相應的乙個資料塊,使用使用者定義的函式處理資料塊.
spark實現了分布式計算和任務處理,並實現了任務的分發,跟蹤,執行等工作.最終聚合結果,完成spark應用的計算.
對rdd的塊管理通過blockmanger完成.blockmanager將資料抽象為資料塊,在記憶體或者磁碟進行儲存,如果資料不在本節點,則還可以通過遠端節點複製到本機進行計算.
執行模式
應用的基本元件
job:乙個rdd graph觸發的作業,往往由spark action運算元觸發.在sparkcontext中通過runjob方法向saprk提交job.
stage:每個job會根據rdd的寬依賴關係唄切分很多stage,每個stage中包含一組相同的task,這一組task也叫taskset.
task:乙個分割槽對應乙個task,task執行rdd中對應stage中包含的運算元.task被封裝好後放入executor的執行緒池中執行.
Spark工作機制
1.使用者提交作業,由driver建立乙個sparkcontext,分配並監控資源使用情況。2.資源管理器為其分配資源,啟動executor程序。3.sparkcontext根據rdd的依賴關係構建dag圖,提交給dagscheduler解析成stage,然後提交給taskscheduler,將st...
Spark工作流程簡述
資源管理器 standalone mesos或yarn 註冊並申請executor執行資源 2 資源管理器分配executor資源並啟動standaloneexecutorbackend,executor 運 況將隨著心跳傳送到資源管理器上 3 sparkcontext構建成dag圖並分解成stag...
spark工作機制見解
1.spark執行機制總覽 在spark的底層實現中,通過rdd進行資料的管理,rdd中有一組分布在不同節點的資料塊,當spark的應用在對這個rdd進行操作時,排程器將包含操作的任務分發到指定的機器上執行,在計算節點通過多執行緒的方式執行任務。乙個操作執行完畢,rdd變轉換為另乙個rdd,這樣,使...