寬依賴與窄依賴

2021-08-20 14:37:13 字數 374 閱讀 1223

1、寬依賴

英文全名:shuffledependency。本質如其名,就是shuffle。每乙個父rdd的partition中的資料,都可能會傳輸一部分,到下乙個rdd的partition中,此時會出現,父rdd和子rdd的partition之間,具有交錯複雜的關係。那麼這兩個rdd之間就是寬依賴,他們之間發生的操作是shuffle。

以wordcount程式為例子,就是reducebykey(_+_),兩個rdd之間的關係。

2、窄依賴

英文全名,narrowdependency。乙個rdd,對他的父rdd,只有簡單一對一的依賴關係。rdd的每個partition,僅僅依賴於父rdd中的乙個partition。父rdd和子rdd的partition之間的關係是一對一。

寬依賴和窄依賴 Spark 寬依賴和窄依賴

1.前言 上一節spark dag概述 spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對...

寬依賴與窄依賴區別

寬依賴與窄依賴區別 窄依賴 narrow dependencies 子rdd的每個分割槽依賴於常數個父分割槽 與資料規模無關 輸入輸出一對一的運算元,且結果rdd的分割槽結構不變。主要是map flatmap 輸入輸出一對一的運算元,但結果rdd的分割槽結構發生了變化,如union coalesce...

Spark寬依賴與窄依賴

spark中rdd的高效與dag 有向無環圖 有很大的關係,在dag排程中需要對計算的過程劃分stage,劃分的依據就是rdd之間的依賴關係。rdd之間的依賴關係分為兩種,寬依賴 wide dependency shuffle dependency 和窄依賴 narrow dependency 窄依...