分布式資料倉儲設計

2021-09-23 01:33:48 字數 281 閱讀 8693

分布式模式-維度建模新原則

(1)以值代鍵:針對鍵值唯一的維表,除非必要,否則不引入維表,如ip位址維表,採用ip作為維表的主鍵,事實表中儲存ip值;

(2)合理分表:傳統關係型資料倉儲存在多表整合的衝動,如上圖event事實表,各種acount ind,finance ind等,用來擴充套件表的通用性,試圖把所有的資料都儲存到一張表 中。分布式資料倉儲的設計,恰恰相反,因為單錶資料規模的問題,如果要滿足分析和處理的效能,合理的按照業務進行資料的分表儲存。如財務相關事件、賬戶相關事件,單獨成表。更有利於資料的計算和分析

分布式資料倉儲Hive

第六章 分布式資料倉儲hive 1.hive的由來 了解乙個技術或者名詞應該知道它產生的初衷 2.在hive中使用了4個主要的資料模型 表,外部表,分割槽和桶。3.hive執行過程中,其元資料可能會不斷被讀取,更新和修改,因此這些元資料不宜存放再hadoop的hdfs中,否則會降低元資料的訪問效率,...

分布式資料倉儲事實表設計思考

一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...

資料倉儲專題(3) 分布式資料倉儲事實表設計思考

一 前言 最近在設計資料倉儲的資料邏輯模型,考慮到海量資料儲存在分布式資料倉儲中的技術架構模式,需要針對傳統的面相關係型資料倉儲的資料儲存模型進行技術改造。設計出一套真正適合分布式資料倉儲的資料儲存模型。二 事實表設計基礎 事實表記錄發生在現實世界中的操作型事件,其所產生的可度數值。事實表的設計完全...