spark 任務劃分

2021-10-06 07:19:23 字數 603 閱讀 1993

​ 窄依賴指的是每乙個父rdd的partition最多被子rdd的乙個partition使用,窄依賴我們形象的比喻為獨生子女

​ 寬依賴指的是多個子rdd的partition會依賴同乙個父rdd的partition,會引起shuffle,總結:寬依賴我們形象的比喻為超生

​ dag 叫做有向無環圖,原始的 rdd 通過一系列轉換就形成了 dag,根據 rdd 之間的依賴關係將 dag 劃分為不同的 stage,對於窄依賴,partition 的處理轉換在 stage 中完成。對於寬依賴,由於有 shuffle 的存在,只能在 parent rdd 處理完成以後,才能開始接下來的計算,因此寬依賴寬劃分 stage 的依據

job:乙個 action 運算元就會生成乙個 job;

task:stage 是乙個 taskset,將 stage 劃分的結果傳送到不同的 executor 執行即為乙個 task。

spark筆記(一)之RDD任務劃分

一.driver executer driver 建立spark上下文物件的應用程式稱之為driver,或者驅動器 只要建立spark上下文物件的類,可以稱之為driver類 功能 傳送任務給executor進行計算 總結 除executoru運算元計算功能之外的 都屬於driver executo...

spark 任務詳解

以下是我對spark任務提交的理解 1 將我們編寫的程式打成jar包 2 呼叫spark submit指令碼提交任務到集群上執行 3 執行sparksubmit的main方法,在這個方法中通過反射的方式建立我們編寫的主類的例項物件,然後呼叫main方法,開始執行我們的 注意,我們的spark程式中的...

Spark中stage的劃分

如下為spark中劃分stage的原始碼 dagscheduler將job分解成具有前後依賴關係的多個stage dagscheduler是根據shuffledependency劃分stage的 stage分為shufflemapstage和resultstage 乙個job中包含乙個results...