Spark工作原理及RDD

2022-08-23 03:21:08 字數 859 閱讀 6772

1.基於記憶體

2.迭代式計算

3.分布式

基本工作原理:

將spark的程式提交到spark集群上,在hadoop的hdfs或者hive上讀取資料,讀取的資料存放在各個spark的節點上,分布式的存放在多個節點上,主要在每個節點的記憶體上,這樣可以加快速度。

對節點的資料進行處理,處理後的資料存放在其他的節點的記憶體上。對資料的 計算操作針對多個節點上的資料進行並行操作。處理之後的資料可以到hadoop或者mysql或hbase中,或者結果直接返回客戶端。

每一批處理的資料就是乙個rdd

spark開發:離線批處理,延遲性的互動式資料處理;sql查詢;實時查詢。底層都是rdd和計算操作。

1.建立rdd

2.定義對rdd的計算操作

3.迴圈往復的過程,第一次計算之後,資料到了新的一批節點上,變成新的rdd,在進行計算操作。

4.獲得最終的資料,將資料儲存火哦返回給客戶端。

spark與mapreduce的不同在於分布式處理,mapreduce裡只有map和reduce兩個

過程,spark在處理乙個階段之後可以繼續處理很多個階段,不止兩個階段,spark可以處理更多的資料

rdd(彈性分布式資料集)是spark提供的核心抽象

rdd在抽象上是一種元素集合,包含了資料,他是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料

可以被並行操作。(分布式)

rdd資料預設情況下是放在記憶體中的,如果記憶體放不下的時候,就會將部分資料存放在磁碟上進行儲存,對於使用者來說都是透明的,不用管資料存放在**,只要進行資料的計算和操作即可。(彈性)

rdd具有容錯性,當節點出現故障,資料會出現丟失,會自動進行計算,重新獲取資料。

Spark工作原理和RDD

spark工作原理 第一步 client將spark程式提交到spark集群節點1 2 3上。第二步 每個節點從hdfs或者hive中讀取相應的資料。第三步 每個節點進行相應的迭代式計算。第四步 把計算結果儲存到指定的檔案系統中 hdfs hive mysql等。rdd及其特點 1.rdd是spar...

02 spark基本工作原理與RDD

分布式主要基於記憶體 迭代式計算 rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。分布式資料集 rdd最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的rdd part...

Spark開發 spark執行原理和RDD

核心 1 spark執行原理 2 rdd 1 spark執行原理 spark應用程式基本概念spark基本工作流程spark 應用程式程式設計模型 1 driver program sparkcontext 1 1匯入spark的類和隱式轉換 1 2構建spark應用程式的執行環境 sparkcon...