資料倉儲介紹

2021-09-24 12:57:39 字數 1265 閱讀 9718

什麼是數倉

資料倉儲簡稱dw,就是乙個用以更好地支援企業或組織的決策分析處理的、面向主題的、整合的、不可更新的、隨時間不斷變化的資料集合。

為什麼要有數倉

主要因為面向應用型的應用的資料庫設計一般是操作型的,而資料分析或者資料探勘都是面向分析型的應用。這兩種應用各有特點和適用的場景,對資料的處理應當分離。

業務資料庫

資料倉儲

遵循3nf正規化,表與表之前關聯複雜

星型模型,事實表,維度表

資料較髒亂

etl去除髒資料,使用方便

理解困難,不同業務有不同操作**

資料統一描述

缺少歷史資料

設計拉鍊表記錄業務狀態變化

資料量大查詢慢

由於結構簡單,查詢速度較快

資料模型設計

從分析決策的需求出發構建模型。步驟為:

選擇粒度,粒度是維度的乙個組合

識別維表,基於粒度設計維表,包括維度屬性。

選擇事實,確定分析需要衡量的指標。

資料分層

(1)ods層:即運算元據層。資料**於埋點上報,爬蟲,以及業務資料庫。功能包括同步,將非結構化的資料結構化,累積歷史、清洗資料。幾乎不做資料處理。

(2)dwd層:即資料明細層。以維度模型方法作為理論基礎,更多地採用一些維度退化方法,將維度退化至事實表中,減少事實表和維表的關聯。

(3)dw層:彙總資料層。加強指標的維度退化,採取更多的寬表化手段構建公共資料指標層,提公升公共指標的復用性。

(4)dm層:存放主題資料,給不同的應用提供資料組裝結果。如所有kol相關的流量、交易、屬性等資料,盡可能多地將相關的維度和指標匯集在一起。絕大部分資料由dm層分發到應用ads層。

(5)ads層:按需生成應用相關的資料介面的表。

設計基本原則

核心模型與擴充套件模型體系:核心模型字段包括常用的字段支援核心業務,擴充套件模型包括的字段支援個性化或者少量應用的需要。不能讓擴充套件模型的字段過度侵入核心模型,以免破壞核心模型的架構簡潔性與可維護性。

公共處理邏輯下沉及單一:公用的處理邏輯應該在資料排程依賴的底層進行封裝與實現,不要讓公共邏輯暴露給應用層,不要讓公共邏輯多處存在。

成本與效能平衡:適當的資料冗餘可換取查詢和重新整理效能,但是不宜過度冗餘與資料複製。

資料可回滾:處理邏輯不變,在不同時間多次執行資料結構確定不變。

一致性:具有相同含義的字段在不同表中的命名必須相同,必須使用規範定義中的名稱。

命名清晰、可理解:表命名需清晰、一致,表名需易於消費者理解和使用。 參考

《大資料之路:阿里巴巴大資料實踐》

資料倉儲介紹

備註 根據網路資源整理 數倉分層部分待進一步研究 一.定義 理解 資料倉儲是資料庫一種概念上的公升級,為滿足業務需求而設計,提供了各種型別的資料支援,容納更多的資料。為企業所有級別的決策制定過程,提供所有型別資料支撐的戰略集合,主要是用於資料探勘和資料分析,以建立資料沙盤為基礎,為消滅訊息孤島和支援...

資料倉儲之簡單介紹

什麼是資料倉儲?乙個面向主題的 整合的 隨時間變化的 非易失的資料集合,用於支援管理者的決策過程。面向主題 如去年買了100w貨以上的使用者有哪些?這個場景就是乙個銷售的資料主題。整合 假設公司有多個產品線分別在不同的資料庫,要統計總銷量,就可以把各個資料整合在資料倉儲 隨時間變化 資料隨著時間變化...

技術分享 資料倉儲介紹

1991年bill inmon出版的 building the data warehouse 一書中正式提出了資料倉儲的概念,inmon也被人成為資料倉儲之父。從本質上說,資料倉儲是一種從操作型系統到決策支援環境的資料流架構模型。這定義看上去有些抽象,解釋起來還要從資料庫說起。資料庫是在資訊化初期,...