1. source, 3nf/file, 源資料
2. stg, 3nf,暫存資料(同源同構,不對外提供服務)
3. ods, 3nf,運算元據(簡單處理,提供基於業務資料的應用)
4. bl, star, 明細資料(面向主題域,資料加工,產生衍生指標)
5. dm, start, 彙總資料(特定領域的應用)
6. olap, cube, 多維資料
7. report。
最難:需求分析、模型設計
工作量最大:etl(60-80%)
標準化:格式,預設值,型別,長度,範圍,去空格
load: delete/rebuild index/ri
資料來源調研:值域,空值,主外來鍵,資料字典,er關係,樣本資料,業務規則
處理: reject,error, rerun.
不要絕對正確,但要知道為什麼不正確(統計口徑)
數倉 分層架構
ods層 資料 及建模方式 各業務系統的源資料,物理模型與業務模型一致 服務領域 為其它邏輯層提供資料 資料etl過程描述 把業務資料抽取落地成文字檔案,再裝載到資料倉儲ods層,不做清洗轉化。功能 1 ods是數倉準備區 2 為dwd提供原始資料 3 減少對業務系統影響 建模方式及原則 資料保留時...
測試 數倉架構 思想
1 單元測試根據設計說明書編寫,不能根據 2 單元測試 介面,區域性資料結構,邊界條件,執行路徑,錯誤處理 3 整合測試最簡單的形式是兩個單元測試之間的介面 4 group by要求 常量 聚合函式 group by 的 5 資料流程 mysql to hdfs hdfs to ods db ods...
脫機數倉到實時數倉的架構演變
1.實時數倉的相關概述 1.1 實時數倉產生背景 我們先來回顧一下資料倉儲的概念。資料倉儲的概念是於 90 年代由 bill inmon 提出,當時的背景是傳統的 oltp 資料庫無法很好的支援長週期分析決策場景,所以資料倉儲概念的 4 個核心點,我們要結合著 oltp 資料庫當時的狀態來對比理解。...