資料倉儲設計的思考

2021-06-03 22:48:58 字數 839 閱讀 3004

講到資料倉儲,很多人就會想到首先按照行業規範和客戶需求調研、做源系統資料分析,然後設計主題,最後設計應用所需的事實表、維表;結構上基本分為三層:ods-dw-dm。從理論的角度來看,資料倉儲就是資料驅動的、穩定的、指標統

一、能存放所有歷史資料的;從需求方的角度來看,能滿足他們所有的報表、查詢和分析資料需求;從開發人員的角度來看,能夠快速、高效、便捷的從資料倉儲中取到資料,完成專案開發;他們並不care資料倉儲的設計到底是什麼樣的,那麼資料倉儲設計到底是什麼呢?

架構設計和模型設計在資料倉儲設計中應該是分開的,這兩個部分也是整個資料倉儲設計中最核心的部分。

資料倉儲架構設計,至少對乙個行業的抽象、設計。如ibm對電信、銀行等行業就有對應的架構方案,但具體的資料模型是可定製的,而且好的架構是對後續會發生的常見問題有好的應對,有高可擴充套件性的。架構中重點是描述系統的結構,以及他們之間的關聯、互動介面。如業務模型、元資料、資料質量、介面平台、報表集市、指標庫等,這裡命名這些模組都是靜態的名詞,架構設計重在描述系統的結構而非功能。

資料倉儲模型設計,需要結合具體的業務和需求來進行的,模型設計只是實現架構中的某個部分。通常模型設計分為**——概念、邏輯和物理模型。概念模型也就是業務模型,由企業決策者,商務領域知識專家和it專家共同企業級地跨領域業務系統需求分析的結果;邏輯模型根據分析系統的實際需求決策構建資料庫邏輯關係模型,定義資料庫物體結構及其關係;物理模型:構建資料倉儲的物理分布模型,主要包含資料倉儲的軟硬體配置,資源情況以及資料倉儲模式等

任何需求均**於業務,業務決定了需求,企業要建立資料倉儲的需求也是由業務所驅動的。因此,資料倉儲專案並不是理論上的完全是資料驅動,它和業務也是密不可分的,應該是兩者同時驅動的。乙個合格的資料倉儲設計,要清除業­務流程,也要清楚資料流程。

資料倉儲設計

資料倉儲簡介 有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以 如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科...

資料倉儲(六) 資料倉儲的概念設計

在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...

資料倉儲分層設計

最近在做資料倉儲相關的工作,專案快要收尾了,總結下資料倉儲資料分層設計的一些心得 雖然以前做過很多olap相關的工作,就像流量統計分析這種,這種型別分析,我們往往就弄一張大寬表和幾張維度表 所有的統計分析都基於這張大寬表與維度表,在這種簡單的應用場景,這種設計倒沒有什麼問題,簡單明瞭 但是如果業務場...