資料倉儲常用表拉鍊表寬表等詳解
全量表:全量表沒有分割槽,表中的資料是前一天的所有資料,比如說今天是24號,那麼全量表裡面擁有的資料是23號的所有資料,每次往全量表裡面寫資料都會覆蓋之前的資料,所以全量表不能記錄歷史的資料情況,只有截止到當前最新的、全量的資料。
快照表:也叫切片資料,那麼要能查到歷史資料情況又該怎麼辦呢?這個時候快照表就派上用途了,快照表是有時間分割槽的,每個分割槽裡面的資料都是分割槽時間對應的前一天的所有全量資料,比如說當前資料表有3個分割槽,24號,25號,26號。其中,24號分割槽裡面的資料就是從歷史到23號的所有資料,25號分割槽裡面的資料就是從歷史到24號的所有資料,以此類推。
增量表:就是記錄每天新增資料的表,比如說,從24號到25號新增了那些資料,改變了哪些資料,這些都會儲存在增量表的25號分割槽裡面。上面說的快照表的25號分割槽和24號分割槽(都是t+1,實際時間分別對應26 號和25號),它兩的資料相減就是實際時間25號到26號有變化的、增加的資料,也就相當於增量表裡面25號分割槽的資料。
寬表:從字面意義上講就是字段比較多的資料庫表。通常是指業務主題相關的指標、維度、屬性關聯在一起的一張資料庫表。由於把不同的內容都放在同一張表儲存,寬表已經不符合三正規化的模型設計規範,隨之帶來的主要壞處就是資料的大量冗餘,與之相對應的好處就是查詢效能的提高與便捷。這種寬表的設計廣泛應用於資料探勘模型訓練前的資料準備,通過把相關字段放在同一張表中,可以大大提高資料探勘模型訓練過程中迭代計算時的效率問題。(一句話,空間換時間,便於訓練迭代、減少表關聯數量,修改少量資料時不需要改多張表)
窄表:嚴格按照資料庫設計三正規化。儘量減少資料冗餘,但是缺點是修改乙個資料可能需要修改多張表。
資料倉儲 事實表
事實表分成三種 事務事實表 週期快照事實表 累計快照事實表 官方定義是 發生在某個時間點上的乙個事件。比如以訂單為例 下單是乙個事實 付款是乙個事實 退款是乙個事實,所有事實的累計就是事務事實表 如果需要對某一天或者某個月的資料進行分析,那麼可以使用週期快照事實表,比如 以天舉例,財務報表一般都是週...
資料倉儲 維度表
維度建模將業務抽象成事實和維度兩個概念。維度建模的核心是對齊維度。所以維度表的一致性是很重要的!維度表是如何進行處理的呢?穩定的維度表。比如 時間維度表 這種維度表的屬性是穩定的,不需要做天的全量快照資料,直接匯入一次即可 緩慢漸變維 維度會隨著時間發生緩慢的變化。比如 使用者維度表 資料量很大,但...
資料倉儲 資料倉儲部署
1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...