Spark 窄依賴 款依賴

2021-09-24 03:53:30 字數 1298 閱讀 2566

窄依賴定義:窄依賴英文為narrow dependency。在spark中,我們具體操作的是rdd資料,而rdd是由多個partition組成的,所以實際上我們真正操作的是partition上的資料。當我們操作partition上的資料的時候無非是兩種情況,一種是translationaction、這兩種操作都會有乙個rdd產生另乙個rdd,我們管前乙個rdd叫做父rdd,管後乙個rdd叫子rdd,在執行操作的時候,如果子rdd中的每個partition中的資料與父rdd中的其中的乙個partition的資料轉換或者操作而來的,他們是一一對應的關係,那麼我們就管這種依賴關係叫做窄依賴**: 

款依賴定義:窄依賴英文為narrow dependency。在spark中,我們具體操作的是rdd資料,而rdd是由多個partition組成的,所以實際上我們真正操作的是partition上的資料。當我們操作partition上的資料的時候無非是兩種情況,一種是translationaction、這兩種操作都會有乙個rdd產生另乙個rdd,我們管前乙個rdd叫做父rdd,管後乙個rdd叫子rdd,在執行操作的時候,如果子rdd中的每個partition的資料是由父rdd中的多個partition中的一部分資料轉換或者操作而來的,他們是多對多的對應的關係,那麼我們就管這種依賴關係叫做寬依賴**: 

Spark寬依賴 窄依賴

在spark中,rdd 彈性分布式資料集 存在依賴關係,寬依賴和窄依賴。寬依賴和窄依賴的區別是rdd之間是否存在shuffle操作。窄依賴窄依賴指父rdd的每乙個分割槽最多被乙個子rdd的分割槽所用,即乙個父rdd對應乙個子rdd或多個父rdd對應乙個子rdd 寬依賴寬依賴指子rdd的每個分割槽都依...

寬依賴和窄依賴 Spark 寬依賴和窄依賴

1.前言 上一節spark dag概述 spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對...

Spark 寬依賴和窄依賴

spark中rdd的高效與dag圖有著莫大的關係,在dag排程中需要對計算過程劃分stage,暴力的理解就是stage的劃分是按照有沒有涉及到shuffle來劃分的,沒涉及的shuffle的都劃分在乙個stage裡面,這種劃分依據就是rdd之間的依賴關係。針對不同的轉換函式,rdd之間的依賴關係分類...