etl系統的四大塊:抽取、清洗、提交、管理
一、抽取
資料探查系統
變化資料捕獲系統
抽取系統
二、清洗
資料清洗和質量處理系統
錯誤事件處理
裝配審計維度
排除重覆記錄系統
資料一致性
三、資料發布
緩慢變更維度處理
**鍵生成系統
層次維度構建
特殊維度生成系統
事實表載入
**鍵管道
多值維度橋接表生成系統
遲到資料處理
維度管理系統
事實表管理系統
聚集構建
cube構建系統
資料整合管理系統
四、管理
作業排程
備份系統
恢復和重新啟動系統
版本控制子系統
從開發環境到生產環境的版本移植系統
工作流監控
排序系統
血統和依賴分析
問題報告系統
並行/管道系統
安全系統
合規報告系統
元資料資源庫管理系統
34個ETL系統總結 P2 變化資料捕獲系統
2.變化資料捕獲系統 常用的四種方式 審計列 使用乙個欄位來標識變化的資料,如修改時間,修改人等。一般需要設計觸發機制在入庫或修改的時候來維護審計列。快照對比 利用核心列的變化做對比來獲取變化的資料,可以使用一些dbms提供的執行緒方式,比如oracle中的物化檢視 materialized vie...
34個ETL子系統 13 事實表載入
在這裡將事實表的載入單獨拿出來,主要是要強調如下三種不同型別的事實表。1 事務型事實表 以單個事務或者事件為單位,作為事實表的1行資料。2 週期快照事實表 事實表裡並不儲存全量的資料,只儲存固定事件間隔的資料,如每個月的資金餘額。3 累積週期快照事實表 當新的事實到達後,更新事實表的裡記錄。例如訂單...
34個ETL子系統 9 緩慢變更維度處理
緩慢變更維度 slowly change dimensions 是基於維度建模的多維資料倉儲的基礎。當維度表的資訊發生變化時,如何更新就成為乙個問題。根據kimball的經典著作,主要有3種方法來處理。type 1 覆蓋 直接用新值代替舊值。type 2 增加新行。將當前行的狀態設定為off,並設定...