spark學習 Task排程演算法

2021-08-16 07:49:43 字數 301 閱讀 5673

task排程演算法:對每個task,依據本地化演算法從最好的一種本地化級別開始遍歷,直到task被分配到executor執行。

1.process_local,程序本地化,rdd的partition和task進入乙個executor內,執行速度快。

2.node_local,節點本地化,rdd的partition和task不在乙個executor中,不在乙個程序內,在乙個worker上。

3.no_pref,無所謂本地化級別,資料在哪效能都一樣。

4.rack_local,機架本地化。

5.any,任意的本地化級別。

spark學習 Task原理

task原理 1.executor接收到了launchtask請求,將task封裝成taskrunner執行。2.反序列化task,並通過網路拉取需要的檔案 jar包等,然後執行task的run 方法。3.呼叫rdd的iterator 方法,會針對task所對應的rdd的partition,執行我們...

spark深度解析 排程演算法

private def schedule 作用就是把集合隨機打亂 取出workers中所有之前註冊的worker,進行過濾,必須 狀態 是alive的worker 把worker隨機的打亂 val shuffledaliveworkers random.shuffle workers.toseq.f...

Spark作業排程

spark在standalone模式下,預設是使用fifo的模式,我們可以使用spark.cores.max來設定它的最大核心數,使用spark.executor.memory 來設定它的記憶體。在yarn模式下,使用 num workers設定worker的數量,使用 worker memory設...