1 為什麼要分層
1.1 把複雜問題簡單化,將複雜的任務分解成多層來完成,每一層只處理簡單的任務,方便定位問題。
1.2 減少重複開發:規範資料分層,通過中間層資料,能夠減少極大的重複計算,增加一次計算結果的復用性。
1.3 隔離原始資料: 不論是資料的異常還是資料的敏感性,使真實資料與統計資料解耦開
2 資料集市與資料倉儲概念
2.1 資料集市(data market),現在市面上的公司和書籍對資料集市有不同的概念。
資料集市側是一種微型的資料倉儲,它通常有更少的資料,更少的主題區域,以及更少的歷史資料,因此部門級的,一般只能為某個區域性範圍內的管理人員服務
資料倉儲是企業級的,能為整個企業各個部門的執行提供決策支援手段。
3 數倉命名規範
3.1 表命名
ods層命名為ods_表名
dwd層命名為dwd_dim/fact_表名
dws層命名為dws_表名
dwt層命名為dwt_購物車
ads層命名為ads_表名
臨時表命名為***_tmp
使用者行為表,以log為字尾。
3.2 指令碼命名
資料來源_to_目標_db/log.sh
使用者行為指令碼以log為字尾;業務資料指令碼以db為字尾。
資料倉儲 數倉分層 01
資料倉儲,資料倉儲是面向主題的 subject oriented 整合的 integrated 非易失的 non volatile 和時變的 time variant 資料集合,用以支援管理決策。每個資料倉儲面向分析的主題都是一樣的 資料倉儲需要分析某乙個主題的資料結果,需要整合各個其他方面的資料 ...
資料倉儲與數倉建模
資料倉儲,英文名為data warehouse,簡寫為dw或dwh。資料倉儲,是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資料集合,用於對管理決策過程的支援1。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及...
資料倉儲分層
下面的內容是基於參考中的文件進行的二次讀書筆記。傳統行業的資料倉儲工程師,開始嘗試架構工程領域比較流行的er模型 維度模型方式,構建出乙個四層的模型架構 阿里在構建er時碰到了較大的挑戰,主要是業務快速發展,人員快速變化 業務知識功底的不夠全面,導致er模型產出困難。阿里得出了乙個結論 在不太成熟 ...