京東數倉大致分四層架構
bdm:資料緩衝層,與源系統保持一致,相當於傳統數倉的ods。
fdm:基礎資料層,按主題設計,資料融合,存放明細歷史資料,相當於傳統數倉的edw。
gdm:通用彙總資料層,明細粒度,可以查詢到具體字段資訊;資料的預關聯,預彙總和預加工;依賴對應用的共性提煉,而不是某個具體應用。
adm:聚合資料層,應用層。面象應用按需定製。
1:資料緩衝層(bdm)
源業務系統資料的快照,儲存細節資料,按天儲存
2:基礎資料層(fdm)
按業務概念組織細節資料,並進行名稱、**等標準化處理,同時對錶進行標準化處理。
3:通用資料層(gdm)
根據京東核心業務價值鏈按照星型模型或雪花模型設計方式建設的最細業務粒度彙總層。在本層需要進行度量與維度的標準化,保證度量資料的唯一性。
4:聚合資料層(adm)
根據不同的業務需求採用星型或雪花型模型設計方法構建的資料彙總層
5:維度層(dim)
維度是對具體分析物件的分析角度,維度要具備豐富的屬性,歷史資訊的可追溯性,對通用的維表要保持一致性。
京東數倉大致分四層架構
數倉架構實踐3 蘇寧售後體系四層模型架構
1.複製層 ssa,system of records staging area ssa 直接複製源系統 比如從mysql中讀取所有資料匯入到hive中的同結構表中,不做處理 的資料,盡量保持業務資料的原貌 與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個...
數倉分層模型架構分享(3)
文章在京東系資料倉儲建設方案的基礎上,加上自己獨特的理解,很能給人以參考和啟發。原文 對於大資料來說,數倉的作用不言而喻,承載著整個公司全業務線的資料,現階段,在hadoop上的數倉主要是用來解決企業內部資料的分析,尤其是各種各樣的統計分析報表。本文主要結合自己公司目前數倉的結構設計和現階段解決的問...
Hadoop 2 x 四層架構
一 儲存層 檔案系統hdfs,nosql hbase 二 資源及資料管理層 yarn以及sentry等 三 計算引擎 mapreduce impala spark等 四 基於mapreduce spark等計算引擎的高階封裝及工具 hive pig mahout等 sqoop sql to hado...