窄依賴指的是每乙個父rdd的partition最多被子rdd的乙個partition使用,窄依賴我們形象的比喻為獨生子女
寬依賴指的是多個子rdd的partition會依賴同乙個父rdd的partition,會引起shuffle,總結:寬依賴我們形象的比喻為超生
dag 叫做有向無環圖,原始的 rdd 通過一系列轉換就形成了 dag,根據 rdd 之間的依賴關係將 dag 劃分為不同的 stage,對於窄依賴,partition 的處理轉換在 stage 中完成。對於寬依賴,由於有 shuffle 的存在,只能在 parent rdd 處理完成以後,才能開始接下來的計算,因此寬依賴寬劃分 stage 的依據。
job:乙個 action 運算元就會生成乙個 job;
task:stage 是乙個 taskset,將 stage 劃分的結果傳送到不同的 executor 執行即為乙個 task。
spark筆記(一)之RDD任務劃分
一.driver executer driver 建立spark上下文物件的應用程式稱之為driver,或者驅動器 只要建立spark上下文物件的類,可以稱之為driver類 功能 傳送任務給executor進行計算 總結 除executoru運算元計算功能之外的 都屬於driver executo...
spark 任務詳解
以下是我對spark任務提交的理解 1 將我們編寫的程式打成jar包 2 呼叫spark submit指令碼提交任務到集群上執行 3 執行sparksubmit的main方法,在這個方法中通過反射的方式建立我們編寫的主類的例項物件,然後呼叫main方法,開始執行我們的 注意,我們的spark程式中的...
Spark中stage的劃分
如下為spark中劃分stage的原始碼 dagscheduler將job分解成具有前後依賴關係的多個stage dagscheduler是根據shuffledependency劃分stage的 stage分為shufflemapstage和resultstage 乙個job中包含乙個results...