數倉建模綜述

2021-10-19 05:09:06 字數 1082 閱讀 6562

隨著大型關聯式資料庫商業軟體的興起,現代企業資訊系統幾乎都在使用關聯式資料庫來儲存、加工和處理資料。資料倉儲系統也不例外,大量的資料倉儲系統依託強大的關聯式資料庫能力儲存和處理資料,其採用的資料模型方法也是基於關聯式資料庫理論的。儘管 nosql也有 一定的發展,但是企業仍在大規模使用sql進行資料的加工和處理,仍然使用表儲存資料,仍然使用關係理論描述資料之前的 關係,只是在大資料領域,基於其資料儲存的特點在關係資料模型的正規化上有了不同的選擇而已。

資料處理大致可以分為兩類:聯機事物處理oltp(online transaction processing)、聯機分析處理olap(online analytical processing)。oltp是傳統的關係型資料庫的主要應用,主要是基本的、日常的事物處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且 提供直觀易懂的查詢結果。

詳情:er模型:從企業的高度設計乙個3nf模型,用實體關係模型描述企業業務,在正規化理論上符合3nf。資料倉儲中的3nf和oltp系統中的3nf的區別在於,它是站在企業角度面向主體抽象,而不是針對某個具體業務流程的實體關係的抽象。特點:需要全面了解企業業務和資料、實施週期非常長、對建模人員能力要求比較高。

維度模型:從分析決策的需求出發構建模型,為分析需求服務,因此它的重點關注使用者如何更快速地完成需求分析,同時具有較好的大規模複雜查詢的響應效能。其典型代表是星型模型,以及一些特殊場景下的雪花模型。設計步驟:

1:選擇需要進行分析決策的業務過程。業務過程可以是單個業務事件,比如支付、退款等;也可以是某個事件的狀態,比如餘額;還可以是業務流程。

2:選擇粒度。事件分析中,要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的乙個組合。

3:識別維表。選擇好粒度之後,就需要基於此粒度設計維表,包括維度屬性,用於分析時進行分組和篩選。

4:選擇事實。確定分析需要衡量的指標。

data value模型:是er模型的衍生,其設計的出發點是為了實現資料的整合,但不能直接用於資料分析決策。強調建立乙個可審計的基礎資料層,也就是強調資料的歷史性、可追溯性和原子性,而不要求對資料進行過度的一致性處理和整合;同時基於主題概念將企業資料進行結構化組織,並引入更進一步 的正規化處理優化模型 ,以應對原系統變更的擴充套件性。

數倉 正規化建模 維度建模

third normal form,3nf 是資料模型常用的乙個方法,主要解決關係型資料庫的資料儲存。目前關係型資料庫的建模方法,大部分採用三正規化建模,即通過實體關係 entity relationship,er 模型描述企業業務。是資料倉儲之父inmon提出的集線器的自上而下 edw dm 的資...

數倉建模的好處

看阿里大資料之路一書,說到為什麼要資料建模?記錄如下 1 效能 良好的資料模型能幫助我們快速查詢所需要的資料,減少資料的i o吞吐 2 成本 良好的資料模型能極大地減少不必要的資料冗餘,也能實現計算結果符用,極大地降低大資料系統中的儲存和計算成本 3 效率 良好的資料模型能極大地改善使用者使用資料的...

數倉過程建模 數倉入門基礎 1 漫談數倉

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。資料倉儲的特徵在於面向主...