task排程演算法:對每個task,依據本地化演算法從最好的一種本地化級別開始遍歷,直到task被分配到executor執行。
1.process_local,程序本地化,rdd的partition和task進入乙個executor內,執行速度快。
2.node_local,節點本地化,rdd的partition和task不在乙個executor中,不在乙個程序內,在乙個worker上。
3.no_pref,無所謂本地化級別,資料在哪效能都一樣。
4.rack_local,機架本地化。
5.any,任意的本地化級別。
spark學習 Task原理
task原理 1.executor接收到了launchtask請求,將task封裝成taskrunner執行。2.反序列化task,並通過網路拉取需要的檔案 jar包等,然後執行task的run 方法。3.呼叫rdd的iterator 方法,會針對task所對應的rdd的partition,執行我們...
spark深度解析 排程演算法
private def schedule 作用就是把集合隨機打亂 取出workers中所有之前註冊的worker,進行過濾,必須 狀態 是alive的worker 把worker隨機的打亂 val shuffledaliveworkers random.shuffle workers.toseq.f...
Spark作業排程
spark在standalone模式下,預設是使用fifo的模式,我們可以使用spark.cores.max來設定它的最大核心數,使用spark.executor.memory 來設定它的記憶體。在yarn模式下,使用 num workers設定worker的數量,使用 worker memory設...