實時數倉1

2021-10-04 20:31:44 字數 1434 閱讀 9541

介紹

丟擲問題

有脫機數倉了,做實時數倉,是否能兼顧到以前的指標體系,是不是可以直接替代?

類似於畫像體系是否可以在此基礎上進行構建?

實時數倉是否可以是實時平台的基礎?

架構有沒有明確的定義?

框架變化

儲存框架

框架優勢

劣勢mysql

事務查詢、儲存的效能瓶頸

elasticsearch

吞吐量大,快速橫向擴充套件,查詢速度快

使用成本相對略高,複雜操作效能較低

druid

超大資料量、通過kafka獲得實時資料;資料匯入預計算

預聚合導致的明細查詢差;無多表操作;不支援單資料的修改

cellar

超大資料量,記憶體+分布式儲存;吞吐效能好

僅支援kv、map、list;kv的值大小限制

計算框架

專案flink

spark streaming

apitable api和flink sql

流api和spark sql

容錯機制

state快照儲存,檢查點

rdd儲存點

狀態管理

鍵控狀態,operator狀態

有updatestatebykey等api

處理模式

單條流式處理

批處理延遲

毫秒級秒級

語義保障

exactly once,at least once

at least once

基本層級處理

資料抽取→ods(kafka)→flink →dwd(kafka) → flink →dws(多維明細寬表)(kafka)→ads(kafka)→ druid/es

dim(mysql/hive/tair)

層級資料&框架

ods實時資料:kafka

dwd事實明細資料:kafka

dws明細多維彙總:kafka

ads應用資料:es、druid、mysql、tair

數倉基石 應用

優勢標籤體系實時化管理

排程任務壓力攤平

資料質量分散保證

實時應用

架構分析

lambda處理框架

冗餘消費優化

場景優化,根據具體業務邏輯以及計算邏輯做好數倉主題劃分以及topic劃分。

排除重複消費,同一批資料做到消費一次,重複利用。

資料安全保證

資料一致性問題,就是實時eos。

上下游對接不同層級kafka,具體操作

資料積壓問題

鏈路監控

框架本身處理的優化實時熱點問題

介紹實施

聚合操作

實時數倉 Lambda架構

在某些場景中,資料的價值隨著時間的推移而逐漸減少。所以在傳統大資料脫機數倉的基礎上,逐漸對資料的實時性提出了更高的要求。其中lambda架構是較早的解決方案,使用流處理和批處理兩種架構進行資料處理。其中流處理部分負責實時資料的處理,但流處理因為資料可靠性並不高,所以需要批處理部分定期進行運算稽查。流...

脫機數倉與實時數倉案例

資料倉儲是乙個面向主題的 subject oriented 整合的 integrate 相對穩定的 non volatile 反映歷史變化 time variant 的資料集合,用於支援管理決策。資料倉儲是伴隨著企業資訊化發展起來的,在企業資訊化的過程中,隨著資訊化工具的公升級和新工具的應用,資料量...

突然火了的實時數倉

去年開始,實時數倉的概念突然火了。也許是傳統的脫機數倉搞了很多年,技術相對成熟了,因此大家都把注意力放到了挑戰性更高的實時上來 也許是隨著存量市場競爭的到來,對於速度的要求越來越快,t 1已經不能滿足資料的獲取要求了,實時的構建需求也就應運而生了。總之,時效性開始大於分析性。文字簡單介紹實時數倉的一...