RDD的依賴關係和Spark任務中的Stage

2021-10-02 10:00:11 字數 748 閱讀 8780

rdd和它依賴的父rdd(s)的關係有兩種不同的型別,即窄依賴(narrow dependency)和寬依賴(wide dependency)。

總結:窄依賴我們形象的比喻為獨生子女

總結:窄依賴我們形象的比喻為超生

dag(directed acyclic graph)

叫做有向無環圖,原始的

rdd通過一系列的轉換就就形成了

dag,根據

rdd之間的依賴關係的不同將

dag劃分成不同的

stage

,對於窄依賴,

partition

的轉換處理在

stage

中完成計算。對於寬依賴,由於有

shuffle

的存在,只能在

parent rdd

處理完成後,才能開始接下來的計算,因此寬依賴是劃分stage的依據

————保持飢餓,保持學習

jackson_mvp

Spark 5 RDD依賴關係

dag任務劃分 rdds 通過操作運算元進行轉換,轉換得到的新 rdd 包含了從其他 rdds 衍生所必需的資訊,rdds 之間維護著這種血緣關係,也稱之為依賴。依賴包括兩種,一種是窄依賴,rdds 之間分割槽是一一對應的,另一種是寬依賴,下游 rdd 的每個分割槽與上游rdd 也稱之為父 rdd ...

spark學習筆記 RDD的依賴關係

1.rdd的依賴關係 1.1 rdd的依賴 rdd和它依賴的父rdd的關係有兩種不同的型別,即窄依賴 narrow dependency 和寬依賴 wide dependency 1.2 窄依賴 窄依賴指的是每乙個父rdd的partition最多被子rdd的乙個partition使用 總結 窄依賴我...

RDD中的依賴關係

1.有shuffle 2.父rdd的乙個分割槽會被子rdd的多個分割槽所依賴 父一對多 1.沒有shuffle 2.父rdd的乙個分割槽只會被子rdd的1個分割槽所依賴 一對一 窄依賴 spark可以對窄依賴進行優化 合併操作,形成pipeline 管道 同乙個管道中的各個操作可以由同乙個執行緒執行...