spark 寬依賴和窄依賴

2022-08-24 23:51:15 字數 481 閱讀 5739

一、窄依賴(narrow dependency,)

即乙個rdd,對它的父rdd,只有簡單的一對一的依賴關係。也就是說, rdd的每個partition ,僅僅依賴於父rdd中的乙個partition,父 rdd和子rdd的partition之間的對應關係,是一對一的!這種情況下,是簡單的rdd之間的依賴關係,也被稱之為窄依賴。

二、寬依賴(shuffle dependency)

本質就是shuffle,也就是說,每乙個父rdd的partition中的資料,都可能會傳輸一部分到下乙個rdd的每個partition中。此時就會出現,父rdd和子rdd的partition之間,具有互動綜複雜的關係。那麼,這種情況,就叫做兩個rdd之間是寬依賴。同時,他們之間發生的,操作,是shuffle,

寬依賴和窄依賴 Spark 寬依賴和窄依賴

1.前言 上一節spark dag概述 spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對...

Spark 寬依賴和窄依賴

spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對不同的轉換函式,rdd之間的依賴關係分類...

Spark 寬依賴和窄依賴

站在父rdd角度 窄依賴 一對一 站在父rdd角度 寬依賴 一對多 寬依賴和窄依賴 寬依賴 父rdd的分割槽被子rdd的多個分割槽使用 例如 groupbykey reducebykey sortbykey等操作會產生寬依賴,會產生shuffle 窄依賴 父rdd的每個分割槽都只被子rdd的乙個分割...