實時資料平台的支撐技術主要包含四個方面:實時資料採集(如flume),訊息中介軟體(如kafka), 流計算框架(如storm, spark, flink和beam),以及資料實時儲存(如列族儲存的hbase)
實時資料平台最為核心的技術是流計算。
流計算的典型特徵:
1、無邊界:流計算的資料源頭是源源不斷的,就像河水一樣不停第流過來,相應地,流計算任務也需要始終執行。
2、觸發:不同於hadoop離線任務是定時排程觸發,流計算任務的每次計算是由源頭資料觸發的。觸發是流計算的乙個非常重要的概念,在某些業務場景下,觸發訊息的邏輯比較複雜,對流計算挑戰很大。
3、延遲:很顯然,流計算必須能高效地、迅速地處理資料。不同於hadoop任務至少以分組甚至小時計的處理延遲,流計算的延遲通常在秒甚至毫秒級,分組級別的延遲只有在特殊情況下才能被接受。
4、歷史資料:hadoop離線任務如果發現歷史某天的資料有問題,通常很容易修復問題而且重執行任務,但是對於流計算任務基本不可能或代價非常大,以為首先實時流訊息不會儲存很久(一般幾天),而且儲存歷史的完全
現場基本不可能,所以實時流計算一般只能從問題發現的時刻修復資料,歷史資料是無法通過流式方式來補的。
資料管理包括資料探查、資料整合、資料質量、元資料管理和資料遮蔽
資料探查:就是對資料的內容本身和關聯關係等進行分析,包括但不限於需要的資料是否有、都有哪些字段、字段含義是否規範明確以及欄位的分布和質量如何等。
資料整合:資料倉儲的資料整合也叫etl(抽取:extract、轉換:transform、載入:load),是資料平台構建的核心,etl泛指將資料從資料源頭抽取、經過清洗、轉換、關聯等轉換,
並最終按照預先設計的資料模型將資料載入到資料倉儲的過程。
大資料開發實戰 實時資料平台和流計算
實時資料平台的支撐技術主要包含四個方面 實時資料採集 如flume 訊息中介軟體 如kafka 流計算框架 如storm,spark,flink和beam 以及資料實時儲存 如列族儲存的hbase 實時資料平台最為核心的技術是流計算。流計算的典型特徵 1 無邊界 流計算的資料源頭是源源不斷的,就像河...
大資料開發實戰 實時資料平台和流計算
實時資料平台的支撐技術主要包含四個方面 實時資料採集 如flume 訊息中介軟體 如kafka 流計算框架 如storm,spark,flink和beam 以及資料實時儲存 如列族儲存的hbase 實時資料平台最為核心的技術是流計算。流計算的典型特徵 1 無邊界 流計算的資料源頭是源源不斷的,就像河...
大資料開發實戰 Stream SQL實時開發一
流計算sql通常是乙個類sql的宣告式語言,主要用於對流式資料 streams 的持續性查詢,目的是在常見流計算平台和框架 如storm spark streaming flink beam等 的底層api上,通過使用簡易通用的的sql語言構建sql抽象層,降低實時開發的門檻。流計算sql的原理其實...