分布式主要基於記憶體
迭代式計算
rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,分為多個分割槽,每個分割槽分布在集群中的不同節點上,從而讓rdd中的資料可以被並行操作。(分布式資料集)
rdd最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的rdd partition,因為節點故障,導致資料丟了,那麼rdd會自動通過自己的資料**重新計算該partition。這一切對使用者是透明的。
rdd的資料預設情況下存放在記憶體中的,但是在記憶體資源不足時,spark會自動將rdd資料寫入磁碟。(彈性)
a.核心開發:離線批處理 / 延遲性的互動式資料處理
b.sql查詢:底層都是rdd和計算操作
c.實時計算:底層都是rdd和計算操作
Spark基本原理與RDD
spark基本工作原理 1 分布式 2 主要基於記憶體 少數情況基於磁碟 3 迭代式計算 rdd以及其特點 1 rdd是spark提供的核心抽象,全稱為resillient distributed dataset,即彈性分布式資料集。2 rdd在抽象上來說是一種元素集合,包含了資料。它是被分割槽的,...
Flume 簡介與基本工作原理
flume是cloudera提供的乙個高可用的,高可靠的,分布式的海量日誌採集 聚合和傳輸的系統,flume支援在日誌系統中定製各類資料傳送方,用於收集資料 同時,flume提供對資料進行簡單處理,並寫到各種資料接受方 可定製 的能力。1.日誌收集 flume最早是cloudera提供的日誌收集系統...
三 Spark設計與執行原理,基本操作
1.spark已打造出結構一體化 功能多樣化的大資料生態系統,請用 闡述spark生態系統的組成及各元件的功能。1 spark core spark核心元件,它實現了spark的基本功能,包含任務排程 記憶體管理 錯誤恢復 與儲存系統互動等模組。spark core中還包含了對彈性分布式資料集 re...