spark streaming 檢查點機制

2021-09-25 18:22:27 字數 619 閱讀 7422

乙個streaming應用程式要求7天24小時不間斷執行,因此必須適應各種導致應用程式失敗的場景。spark streaming的檢查點具有容錯機制,有足夠的資訊能夠支援故障恢復。支援兩種資料型別的檢查點:元資料檢查點和資料檢查點。

(1)元資料檢查點,在類似hdfs的容錯儲存上,儲存streaming計算資訊。這種檢查點用來恢復執行streaming應用程式失敗的driver程序。

(2)資料檢查點,在進行跨越多個批次合併資料的有狀態操作時尤其重要。在這種轉換操作情況下,依賴前一批次的rdd生成新的rdd,隨著時間不斷增加,rdd依賴鏈的長度也在增加,為了避免這種無限增加恢復時間的情況,通過週期檢查將轉換rdd的中間狀態進行可靠儲存,藉以切斷無限增加的依賴。使用有狀態的轉換,如果updatestatebykey或者reducebykeyandwindow在應用程式中使用,那麼需要提供檢查點路徑,對rdd進行週期性檢查。

元資料檢查點主要用來恢復失敗的driver程序,而資料檢查點主要用來恢復有狀態的轉換操作。無論是driver失敗,還是worker失敗,這種檢查點機制都能快速恢復。許多spark streaming都是使用檢查點方式。但是簡單的streaming應用程式,不包含狀態轉換操作不能執行檢查點;從

--------------------

Spark Streaming入門詳解

背景 使用spark主要是使用spark streaming,spark streaming的魔力之所在於 1.流式處理,如今是乙個流處理時代,一切與流不相關的都是無效的資料。3.spark streaming本身是乙個程式,spark streaming在處理資料的時候會不斷感知資料。所以對構建複...

Spark Streaming 程式監控

官網中指出,spark中專門為sparkstreaming程式的監控設定了額外的途徑,當使用streamingcontext時,在web ui中會出現乙個 streaming 的選項卡,在此選項卡內,統計的內容展示如下 這其中包括接受的記錄數量,每乙個batch內處理的記錄數,處理時間,以及總共消耗...

spark streaming讀取kafka示例

spark streaming讀取kafka示例,其中 spark streaming優雅的關閉策略優化部分參考 如何管理spark streaming消費kafka的偏移量部分參考 spark向kafka中寫入資料部分參考 object demo 建立streamingcontext return...