官網中指出,spark中專門為sparkstreaming程式的監控設定了額外的途徑,當使用streamingcontext時,在web ui中會出現乙個"streaming"的選項卡,
在此選項卡內,統計的內容展示如下:
這其中包括接受的記錄數量,每乙個batch內處理的記錄數,處理時間,以及總共消耗的時間。
在上述引數之中最重要的兩個引數分別是porcessing time 以及 scheduling delay
porcessing time 用來統計每個batch內處理資料所消費的時間
scheduling delay 用來統計在等待被處理所消費的時間
如果pt比sd大,或者sd持續上公升,這就表明此系統不能對產生的資料實時響應,換句話來說就是,出現了處理時延,每個batch time 內的處理速度小於資料的產生速度。
在這種情況下,讀者需要想法減少資料的處理速度,即需要提公升處理效率。
Spark Streaming入門詳解
背景 使用spark主要是使用spark streaming,spark streaming的魔力之所在於 1.流式處理,如今是乙個流處理時代,一切與流不相關的都是無效的資料。3.spark streaming本身是乙個程式,spark streaming在處理資料的時候會不斷感知資料。所以對構建複...
spark streaming讀取kafka示例
spark streaming讀取kafka示例,其中 spark streaming優雅的關閉策略優化部分參考 如何管理spark streaming消費kafka的偏移量部分參考 spark向kafka中寫入資料部分參考 object demo 建立streamingcontext return...
sparkStreaming核心剖析
receiver從kafka中接收的資料都是一條一條的資料,那麼接下來,會將這一條一條的資料儲存到currnetbuffer arraybuffer 這時有乙個執行緒 blockintervaltimer 每隔一段時間 可配置 將currentbuffer中所有資料打包,封裝為乙個block 然後將...