02 spark基本工作原理與RDD

2022-08-19 04:24:10 字數 534 閱讀 9193

分布式主要基於記憶體

迭代式計算

rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。(分布式資料集)

rdd最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的rdd partition,因為節點故障,導致資料丟了,那麼rdd會自動通過自己的資料**重新計算該partition。這一切對使用者是透明的。

rdd的資料預設情況下存放在記憶體中的,但是在記憶體資源不足時,spark會自動將rdd資料寫入磁碟。(彈性)

a.核心開發:離線批處理 / 延遲性的互動式資料處理

b.sql查詢:底層都是rdd和計算操作

c.實時計算:底層都是rdd和計算操作

Spark基本原理與RDD

spark基本工作原理 1 分布式 2 主要基於記憶體 少數情況基於磁碟 3 迭代式計算 rdd以及其特點 1 rdd是spark提供的核心抽象,全稱為resillient distributed dataset,即彈性分布式資料集。2 rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,...

Flume 簡介與基本工作原理

flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料 同時,flume提供對資料進行簡單處理,並寫到各種資料接受方 可定製 的能力。1.日誌收集 flume最早是cloudera提供的日誌收集系統...

三 Spark設計與執行原理,基本操作

1.spark已打造出結構一體化 功能多樣化的大資料生態系統,請用 闡述spark生態系統的組成及各元件的功能。1 spark core spark核心元件,它實現了spark的基本功能,包含任務排程 記憶體管理 錯誤恢復 與儲存系統互動等模組。spark core中還包含了對彈性分布式資料集 re...