Spark Streaming基礎概念

2021-09-07 07:54:59 字數 854 閱讀 9246

為了更好地理解spark streaming 子框架的處理機制,必須得要自己弄清楚這些最基本概念。

1、離散流(discretized stream,dstream):這是spark streaming對內部持續的實時資料流的抽象描述,即我們處理的乙個實時資料流,在spark streaming中對應於乙個dstream的例項。

2、

(batch data):這是化整為零的第一步,將實時流資料以時間片為單位進行分批,將流處理轉換為時間片資料的批處理。隨著持續時間的推移,這些處理結果就形成了對應的結果資料流了。

3、時間片或批處理時間間隔(batch interval):這是人為地對流資料進行定量的標準,以時間片作為拆分流資料的依據。乙個時間片的資料對應乙個rdd例項。

4、視窗長度(window length):乙個視窗覆蓋的流資料的時間長度。必須是批處理時間間隔的倍數。

5、滑動時間間隔:前乙個視窗到後乙個視窗所經過的時間長度。必須是批處理是假間隔的倍數。

6、input dstream:乙個input dstream是乙個特殊的dstream,將spark streaming連線到乙個外部資料來源來讀取資料。

7、receive

r:長時間(可能 7 x 24小時)執行在executor。每個receiver負責乙個input dstream(例如乙個讀取kafka訊息的輸入流)。每個receiver,加上dstream會占用乙個core/slot。

Spark Streaming入門詳解

背景 使用spark主要是使用spark streaming,spark streaming的魔力之所在於 1.流式處理,如今是乙個流處理時代,一切與流不相關的都是無效的資料。3.spark streaming本身是乙個程式,spark streaming在處理資料的時候會不斷感知資料。所以對構建複...

Spark Streaming 程式監控

官網中指出,spark中專門為sparkstreaming程式的監控設定了額外的途徑,當使用streamingcontext時,在web ui中會出現乙個 streaming 的選項卡,在此選項卡內,統計的內容展示如下 這其中包括接受的記錄數量,每乙個batch內處理的記錄數,處理時間,以及總共消耗...

spark streaming讀取kafka示例

spark streaming讀取kafka示例,其中 spark streaming優雅的關閉策略優化部分參考 如何管理spark streaming消費kafka的偏移量部分參考 spark向kafka中寫入資料部分參考 object demo 建立streamingcontext return...