一、前言
最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。
二、事實表設計基礎
事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全依賴於物理活動,不受可能產生的最終報表的影響。事實表中,除數字度量外,事實表總是包含外來鍵,用於關聯與之相關的維度,也可以包含退化的維度鍵和日期/時間戳。
三、傳統模式
以fs-ldm資料儲存模型event主題域資料儲存模型設計為例,其事件主題域資料邏輯模型結構如下圖所示:
傳統模式的主要問題如下:如果資料量很小的情況下,執行多表關聯,沒有問題,但是當在分布式資料倉儲,單錶儲存海量資料的情況下,很明顯模式將面臨挑戰。
三、分布式模式-維度建模新原則
(2)合理分表:傳統關係型資料倉儲存在多表整合的衝動,如上圖event事實表,各種acount ind,finance ind等,用來擴充套件表的通用性,試圖把所有的資料都儲存到一張表 中。分布式資料倉儲的設計,恰恰相反,因為單錶資料規模的問題,如果要滿足分析和處理的效能,合理的按照業務進行資料的分表儲存。如財務相關事件、賬戶相關事件,單獨成表。更有利於資料的計算和分析。
四、分布式維度模型例項
序號字段英文
字段中文
字段解釋
字段對映
字段加工邏輯
指標字段
1event_id
事件id
記錄標識標識2
tm時間
時間戳維度
3domain
域維度-值4ip
ip位址
ip位址
維度-值5os
作業系統
作業系統
維度-值
6user_id
使用者id
使用者id
維度-fk
7date
日期日期(新增)
維度-值
8from
**訪問**系統
維度-值
五、未完待續
出處:
資料倉儲專題(3) 分布式資料倉儲事實表設計思考
一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...
07分布式資料倉儲 HIVE 函式
hive函式,自帶函式,和自定義函式 自帶函式100多個包括,基本函式 map 聚合函式 reduce 集合函式 map 其他函式 自定義函式包括udf map udaf reduce show functions desc function from unixtime desc function ...
分布式資料倉儲Hive
第六章 分布式資料倉儲hive 1.hive的由來 了解乙個技術或者名詞應該知道它產生的初衷 2.在hive中使用了4個主要的資料模型 表,外部表,分割槽和桶。3.hive執行過程中,其元資料可能會不斷被讀取,更新和修改,因此這些元資料不宜存放再hadoop的hdfs中,否則會降低元資料的訪問效率,...