資料倉儲設計

2021-09-13 23:17:53 字數 1019 閱讀 1739

資料倉儲簡介:有些人不理解資料倉儲,認為資料倉儲就是獲取資料,只要會使用hadoop、spark等大資料工具就懂資料倉儲,這樣的認識太片面。如果要從海量資料中總結出乙個報表或者是多個報表,大資料工程師足以;如果在有限的資源動態的資料情況下,向前可歷史追溯,向後對不斷增加的報表實現相容,這就需要一套科學的資料管理方法。資料倉儲是一門資料管理的科學,資料倉儲的核心就是計算、儲存和維護之間的博弈。

中間儲存層:中間層資料和源資料基本保持一致,儲存著最細粒度的資料。中間層可以說是資料倉儲最重要的一層,是所有後期分析的資料基礎。中間儲存層一般存放所有的明細資料,具有資料量大,查詢計算較慢的特點。

多維資料層:多維資料層是經過清洗的,有價值的資料。多維資料層是在儲存層的基礎上清洗髒資料、刪選有價值資料,並且對儲存層的事實維度表進行事實維度分離。與中間儲存層相比,多維資料層與儲存層有著相同的資料粒度,但是具有更小的資料量、更快的查詢速度。

資料集市層:它是面向主題輕度彙總的資料,在某主題的最細粒度資料,能滿足該主題所有需求。資料集市是按照某一主題彙總,既可以由多維資料層彙總,也可是其他集市表進一步彙總,通常是星狀、雪花狀資料和網狀模型。資料集市層主題明確,極大減少使用方理解及使用成本

資料倉儲設計步驟

1、確定主題

主題與業務密切相關,所以設計數倉之前應當充分了解業務有哪些方面的需求,據此確定主題

2、確定量度

在確定了主題以後,我們將考慮要分析的技術指標,諸如年銷售額之類。量度是要統計的指標,必須事先選 

擇恰當,基於不同的量度將直接產生不同的決策結果。

3、確定資料粒度

考慮到量度的聚合程度不同,我們將採用「最小粒度原則」,即將量度的粒度設定到最小。例如如果知道某些資料細分到天就好了,那麼設定其粒度到天;但是如果不確定的話,就將粒度設定為最小,即毫秒級別的。

4、確定維度

設計各個維度的主鍵、層次、層級,儘量減少冗餘。

5、建立事實表

事實表中將存在維度**鍵和各量度,而不應該存在描述性資訊,即符合「瘦高原則」,即要求事實表資料條數盡量多(粒度最小),而描述性資訊盡量少。

參考:

資料倉儲(六) 資料倉儲的概念設計

在資料集市設計中可以使用3種基本的系統方法 資料驅動的方法 需求驅動的方法和混合方法。它們的區別在於源資料庫分析和終端使用者需求分析階段所佔的比重。方法的選擇將極大地影響概念設計的方式。資料驅動方法包括 基於實體 關係模式的設計 基於關係模式的設計 基於xml模式的設計。概念型實體 關係模式比關係型...

資料倉儲分層設計

最近在做資料倉儲相關的工作,專案快要收尾了,總結下資料倉儲資料分層設計的一些心得 雖然以前做過很多olap相關的工作,就像流量統計分析這種,這種型別分析,我們往往就弄一張大寬表和幾張維度表 所有的統計分析都基於這張大寬表與維度表,在這種簡單的應用場景,這種設計倒沒有什麼問題,簡單明瞭 但是如果業務場...

資料倉儲設計要點

資料倉儲層級一般可分為 增量或全量資料映象層,最新基礎資料層,清單資料中間層,彙總層,報表層。設計的時候要注意一下 1.彙總層表的字段,不應該根據報表的需要來建立,應該根據不同維度和不同粒度的資料和不同時間點的資料進行區分。2.表設計的時候 1 為什麼需要這樣設計,2 作用是什麼,3 在整個資料倉儲...