Flink和spark的對比

2021-10-09 22:25:49 字數 450 閱讀 3198

兩者最重要的區別(流和微批)

micro-batching計算模式認為"流是批的特例",流計算就是將連續不斷的微批進行持續計算,如果批足夠小那麼就有足夠小的延時,在一定程度上滿足了99%的實時計算場景。那麼那1%為啥做不到呢? 這就是架構的魅力,在micro-batching模式的架構實現上就有乙個自然流資料流入系統進行攢批的過程,這在一定程度上就增加了延時。具體如下示意圖:

從上面可以看到是把輸入的資料, 分成微小的批次, 然後乙個批次乙個批次的處理, 然後也是一片批次的輸出. 很顯然micro-batching模式有其天生的低延時瓶頸,但任何事物的存在都有兩面性,在大資料計算的發展歷史上,最初hadoop上的mapreduce就是優秀的批模式計算框架,micro-batching在設計和實現上可以借鑑很多成熟實踐。

native streaming計算模式認為「

Spark與Flink的對比

為了理解spark和flink引擎的特性,首先必須檢查它們各自的資料模型。spark使用彈性分布式資料集 resilient distributed dataset,rdd rdd比mapreduce的檔案模型更抽象,依賴於運算關係以確保可恢復性。rdd通常用於分布式共享記憶體或完全虛擬化,也就是說...

flink和spark的區別

1 spark無狀態,flink有狀態 spark本身是無狀態的,所以我們可以把它看成乙個rdd乙個運算元乙個rdd的去處理,就是說可以看成分段處理。但是flink是事件驅動型應用是一類具有狀態的應用,我們要把它看成乙個個event記錄去處理,當遇到視窗時會進行阻塞等待,視窗的聚合操作是無狀態的。過...

spark和storm的對比

對比點 storm spark streaming 實時計算模型 純實時,來一條資料,處理一條資料 準實時,對乙個時間段內的資料收集起來,作為乙個rdd,再處理 實時計算延遲度 毫秒級 秒級 吞吐量 低 高 事務機制 支援完善 支援,但不夠完善 健壯性 容錯性 zookeeper,acker,非常強...