34個ETL系統總結 P2 變化資料捕獲系統

2021-10-09 12:16:51 字數 312 閱讀 8133

2. 變化資料捕獲系統

常用的四種方式

審計列:使用乙個欄位來標識變化的資料,如修改時間,修改人等。一般需要設計觸發機制在入庫或修改的時候來維護審計列。

快照對比:利用核心列的變化做對比來獲取變化的資料,可以使用一些dbms提供的執行緒方式,比如oracle中的物化檢視(materialized view)重新整理來進行捕獲。

日誌對比:利用解析資料庫的日誌來獲取變化,比較常用的有mysql的binlog+canal的方式,oracle可以考慮使用goldengate

觸發器:rdbms系統常用方式,在dml語句執行時處理特定邏輯來捕獲資料

34個ETL系統總結 P0

etl系統的四大塊 抽取 清洗 提交 管理 一 抽取 資料探查系統 變化資料捕獲系統 抽取系統 二 清洗 資料清洗和質量處理系統 錯誤事件處理 裝配審計維度 排除重覆記錄系統 資料一致性 三 資料發布 緩慢變更維度處理 鍵生成系統 層次維度構建 特殊維度生成系統 事實表載入 鍵管道 多值維度橋接表生...

34個ETL子系統 13 事實表載入

在這裡將事實表的載入單獨拿出來,主要是要強調如下三種不同型別的事實表。1 事務型事實表 以單個事務或者事件為單位,作為事實表的1行資料。2 週期快照事實表 事實表裡並不儲存全量的資料,只儲存固定事件間隔的資料,如每個月的資金餘額。3 累積週期快照事實表 當新的事實到達後,更新事實表的裡記錄。例如訂單...

34個ETL子系統 9 緩慢變更維度處理

緩慢變更維度 slowly change dimensions 是基於維度建模的多維資料倉儲的基礎。當維度表的資訊發生變化時,如何更新就成為乙個問題。根據kimball的經典著作,主要有3種方法來處理。type 1 覆蓋 直接用新值代替舊值。type 2 增加新行。將當前行的狀態設定為off,並設定...