大資料平台資料倉儲分層

2021-09-29 19:59:32 字數 2187 閱讀 7532

1、緩衝資料層bdm

源業務系統資料的快照,儲存細節資料,按天儲存。

2、基礎資料層fdm

按業務概念組織細節資料。

3、通用資料層gdm

根據京東核心業務價值鏈按照星型模型或雪花模型設計方式建設的最細業務粒度彙總層。在本層需要進行指標與維度的標準化,保證指標資料的唯一性。

4、資料層adm

根據不同的業務需求採用星型或雪花型模型設計方法構建的資料集市。

5、維度層dim

維度是對具體分析物件的分析角度,維度要具備豐富的屬性,歷史資訊的可追溯性,對通用的維表要保持一致性。

6、臨時層tmp

用來降低加工過程計算難度,提高執行效率的臨時表層。

資料層級

簡稱

表命名規範

常見分割槽使用方法

基礎資料層

fdmfdm

表名=fdm_源庫名稱_源表名_載入策略(拉鍊表_chain,增量表_無字尾),即:

1、fdm拉鍊表:fdm_源庫名稱_源表名_chain

例如:fdm_bd_dms_sorting_chain

2、fdm增量表:fdm_源庫名稱_源表名

例如:fdm_bd_waybill_package_state

1、fdm拉鍊表:

(1)、dp='active':獲取昨日線上最新資料,

使用推薦度為五星。

(2)、start_date<=#date# and end_date>#date#:還原某一天線上的資料;

對開發人員,涉及到歷史資料重跑,使用比較多。

對業務人員,通常只需要獲取昨日線上最新資料,推薦使用dp='active',不推薦使用start_date<= sysdate(-1) and end_date> sysdate(-1),因為前者執行效率比後者高。

使用推薦度為五星(開發人員)和二星(業務人員)。

(3)、dp='history':獲取有資料轉結的表(即線上有歷史庫的情況,但是這樣的表很少),

使用推薦度為二星。

(4)、dt = #date#,dp='expired':拉鍊表這樣寫法沒有多少實際意義,不推薦使用dt分割槽。

2、fdm增量表:

dt = #date#

、dt >= #date#,使用推薦度為五星。

通用資料層

gdmgdm

表名=gdm_主題字首_主體_加工策略(全量表_da,非全量表-無字尾),即:

1、gdm全量表:gdm_主題字首_主體_da

例如:gdm_m04_ord_amount_da

2、gdm增量表:gdm_主題字首_主體

例如:gdm_online_log;gdm_m04_ord_sum

1、gdm全量表:

dt = sysdate(-1)

,獲取最新全量資料。推薦使用度為五星。

2、gdm增量表:

gdm增量表通常有兩大類,一類以gdm_online_log為代表,一類以gdm_m04_ord_sum為代表。

(1)、前者資料按「昨日」增量加工(分割槽欄位為dt):

獲取某天或某一時間段的資料:dt=#date#、dt >= #date#。使用推薦度為五星。

(2)、後者資料按「歸檔日期」增量加工(分割槽欄位為dt、dp):

獲取某天或某一時間段的資料:dt >= #date# + 時間字段。使用推薦度為五星。

注意:1、由於gdm表加工比較靈活,使用之前建議務必弄清楚表的加工邏輯。

2、部分gdm表除了常見分割槽字段(dp、dt)外,還會特有分割槽字段。例如,gdm_m08_ib_biz_basic表的分割槽欄位為:dp、wms_type_cd、dt

聚合資料層

adm表名= adm+主題英文簡稱+主體+字尾(日/周/月/季/年/)

根據表加工方式使用分割槽

維度層dim

表名= dim_主體

大部分維表沒有分割槽,但是少部分維表存在分割槽,使用時候一定要注意。

應用層

根據表加工方式使用分割槽

資料中臺 資料倉儲 大資料平台

資料中颱是一套可持續 讓企業的資料用起來 的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方 支撐,構建一套持續不斷把資料變成資產並服務於業務的機制。資料中臺 資料倉儲 大資料平台的關鍵區別是什麼?認可了資料中颱的價值,我們自然是想要去快速搭建,然後真正去規劃...

大資料之資料倉儲分層

資料分層是一套行之有效的資料組織和管理方法,使得資料體系更有序。1 清晰資料結構 每乙個資料分層都有它的作用域和職責,在使用表的時候能更方便的定位和理解。2 減少重複開發 規範資料分層,開發一些通用的中間層資料,能夠減少極大的重複計算。3 統一資料口徑 通過資料分層,提供統一的資料出口,統一對外輸出...

詳解大資料資料倉儲分層架構

大資料資料倉儲是基於hive構建的資料倉儲,分布檔案系統為hdfs,資源管理為yarn,計算引擎主要包括mapreduce tez spark等,分層架構如下 2 事實表是資料倉儲結構中的 表,它包含聯絡事實與維度表的數字度量值和鍵。事實資料表包含描述業務 例如產品銷售 內特定事件的資料。3 維度表...