spark學習筆記 RDD的依賴關係

2021-10-12 03:00:10 字數 694 閱讀 6595

1. rdd的依賴關係

1.1 rdd的依賴

rdd和它依賴的父rdd的關係有兩種不同的型別,即窄依賴(narrow dependency)和寬依賴(wide dependency)。

1.2 窄依賴

窄依賴指的是每乙個父rdd的partition最多被子rdd的乙個partition使用

總結:窄依賴我們形象的比喻為獨生子女

1.3 寬依賴

寬依賴指的是多個子rdd的partition會依賴同乙個父rdd的partition

總結:寬依賴我們形象的比喻為超生

2. dag的生成

2.1 什麼是dag

dag(directed acyclic graph)叫做有向無環圖,原始的rdd通過一系列的轉換就形成了dag,根據rdd之間依賴關係的不同將dag劃分成不同的stage(排程階段)。對於窄依賴,partition的轉換處理在乙個stage中完成計算。對於寬依賴,由於有shuffle的存在,只能在parent rdd處理完成後,才能開始接下來的計算,因此寬依賴是劃分

stage

的依據。

Spark 六 RDD的血緣依賴

1.rdd血緣關係 rdd只支援粗粒度轉換,即在大量記錄上執行的單個操作。將建立rdd的一系列lineage 血統 記錄下來,以便恢復丟失的分割槽。rdd的lineage會記錄rdd的元資料資訊和轉換行為,當該rdd的部分分割槽資料丟失時,它可以根據這些資訊來重新運算和恢復丟失的資料分割槽。檢視rd...

Spark 5 RDD依賴關係

dag任務劃分 rdds 通過操作運算元進行轉換,轉換得到的新 rdd 包含了從其他 rdds 衍生所必需的資訊,rdds 之間維護著這種血緣關係,也稱之為依賴。依賴包括兩種,一種是窄依賴,rdds 之間分割槽是一一對應的,另一種是寬依賴,下游 rdd 的每個分割槽與上游rdd 也稱之為父 rdd ...

spark學習 RDD程式設計

rdd建立 從從檔案系統中載入資料建立rdd 1.spark採用textfile 從檔案系統中載入資料建立rdd 可以使本地,分布式系統等 2.把檔案的url作為引數 可以是本地檔案系統的位址,分布式檔案系統hdfs的位址等等 從本地檔案中載入資料 sc為系統自動建立的sparkcontext,不用...