34個ETL系統總結 P0

2021-10-09 11:12:01 字數 583 閱讀 4095

etl系統的四大塊:抽取、清洗、提交、管理

一、抽取

資料探查系統

變化資料捕獲系統

抽取系統

二、清洗

資料清洗和質量處理系統

錯誤事件處理

裝配審計維度

排除重覆記錄系統

資料一致性

三、資料發布

緩慢變更維度處理

**鍵生成系統

層次維度構建

特殊維度生成系統

事實表載入

**鍵管道

多值維度橋接表生成系統

遲到資料處理

維度管理系統

事實表管理系統

聚集構建

cube構建系統

資料整合管理系統

四、管理

作業排程

備份系統

恢復和重新啟動系統

版本控制子系統

從開發環境到生產環境的版本移植系統

工作流監控

排序系統

血統和依賴分析

問題報告系統

並行/管道系統

安全系統

合規報告系統

元資料資源庫管理系統

34個ETL系統總結 P2 變化資料捕獲系統

2.變化資料捕獲系統 常用的四種方式 審計列 使用乙個欄位來標識變化的資料,如修改時間,修改人等。一般需要設計觸發機制在入庫或修改的時候來維護審計列。快照對比 利用核心列的變化做對比來獲取變化的資料,可以使用一些dbms提供的執行緒方式,比如oracle中的物化檢視 materialized vie...

34個ETL子系統 13 事實表載入

在這裡將事實表的載入單獨拿出來,主要是要強調如下三種不同型別的事實表。1 事務型事實表 以單個事務或者事件為單位,作為事實表的1行資料。2 週期快照事實表 事實表裡並不儲存全量的資料,只儲存固定事件間隔的資料,如每個月的資金餘額。3 累積週期快照事實表 當新的事實到達後,更新事實表的裡記錄。例如訂單...

34個ETL子系統 9 緩慢變更維度處理

緩慢變更維度 slowly change dimensions 是基於維度建模的多維資料倉儲的基礎。當維度表的資訊發生變化時,如何更新就成為乙個問題。根據kimball的經典著作,主要有3種方法來處理。type 1 覆蓋 直接用新值代替舊值。type 2 增加新行。將當前行的狀態設定為off,並設定...