有狀態的流式處理

2021-10-09 22:25:49 字數 542 閱讀 5227

流處理技術在大大小小的公司中越來越受歡迎,因為它為許多已建立的用例(如資料分析,etl和事務應用程式)提供了很好的解決方案,同時發展了很多新的應用程式和商機。那麼,為什麼有狀態流處理變得如此受歡迎?我們首先回顧傳統的資料應用程式架構並指出它們的侷限性。接下來,我們介紹基於狀態流處理的應用程式設計 與傳統方法相比,它具有許多有趣的特徵,最後,我們簡要討論開源流處理器的發展。

數十年來,資料和資料處理在企業中無處不在。多年來,資料的收集和使用一直在增長,公司已經設計並構建了基礎架構來管理資料。大多數企業實施的傳統架構區分了兩種型別的資料處理:事務處理(oltp)和分析處理(olap)。

公司將各種應用程式用於日常業務活動,例如企業資源規劃(erp)系統,客戶關係管理(crm)軟體和基於web的應用程式。這些系統通常設計有單獨的層,用於資料處理(應用程式本身)和資料儲存(事務資料庫系統),如下圖所示。

應用程式通常連線到外部服務或直接面向使用者,並持續處理傳入的事件,如**上的訂

flink 2 概念 有狀態的流式處理

傳統批處理方法是持續收取資料,以時間作為劃分多個批次的依據,再周期性地執行批次運算。但假設需要計算每小時出現事件轉換的次數,如果事件轉換跨越了所定義的時間劃分,跨越了批次的時間邊界,傳統批處理會將中介運算結果帶到下乙個批次進行計算 除此之外,當出現接收到的事件順序顛倒情況下,傳統批處理仍會將中介狀態...

流式處理框架的特點

分布式的流處理是對無界的資料集進行連續不斷的處理,聚合,分析的過程。延遲需要盡可能的低 毫秒級或秒級 這類框架通常採用有向無環圖 dag 來描述和處理作業拓撲。線性處理也是一種dag 他們一般會抽取此類系統的底層通用模型,保證其易用性,健壯性和可擴充套件性。讓開發者專注於業務實現。流式處理框架一般會...

Storm流式處理框架概述

hadoop的高吞吐,海量資料處理的能力使得人們可以方便地處理海量資料。但是,hadoop的缺點也和它的優點同樣鮮明 延遲大,響應緩慢,運維複雜。有需求也就有創造,在hadoop基本奠定了大資料霸主地位的時候,很多的開源專案都是以彌補hadoop的實時性為目標而被創造出來。而在這個節骨眼上storm...