1. 複製層(ssa,system-of-records-staging-area)
ssa 直接複製源系統(比如從mysql中讀取所有資料匯入到hive中的同結構表中,不做處理)的資料,盡量保持業務資料的原貌;與源系統資料唯一不同的是,ssa 中的資料在源系統資料的基礎上加入了時間戳的資訊,形成了多個版本的歷史資料資訊。也叫登台區。
2. 原子層(sor,system-of-record)
sor 是基於模型開發的一套符合 3nf 正規化規則的表結構,它儲存了資料倉儲內最細層次的資料,並按照不同的主題域對資料分類儲存;比如高校資料統計服務平台根據目前部分需求將全校資料在 sor 層中按人事、學生、教學、科研四大主題儲存;sor 是整個資料倉儲的核心和基礎,在設計過程中應具有足夠的靈活性,以能應對新增更多的資料來源、支援更多的分析需求,同時能夠支援進一步的公升級和更新。
3 .彙總層(sma,summary-area)
sma 是 sor和dm(集市層) 的中間過渡,由於 sor 是高度規範化資料,此要完成乙個查詢需要大量的關聯工作,同時dm 中的資料粒度往往要比 sor 高很多,對要生dm 中的彙總資料需要進行大量的彙總工作,此sma 根據需求把 sor 資料進行適度的反範(例如,設計寬表結構將人員資訊、幹部資訊等多表的資料合併起來)和彙總(例如,一些常用的頭彙總、機構彙總等);從而提高資料倉儲查詢效能。
4 .集市層/展現層(dm, data mart)
dm 儲存的資料供使用者直接訪問的,可以將 dm 理解成終端使用者接最終想要看的資料;dm 主要是各類粒度的事資料,通過提供不同粒度的資料,適應不同的數訪問需求;高校資料統計服務平台 dm 中的資料。
1,2,4都相同,就是3由彙總層(sma,summary-area)改為dpa(資料管道區,data pipeline area),定義也有區別。
dpa資料儲存的還是明細級別的寬表資料,而非按細粒度(天)的彙總;而sma是根據需求把 sor 資料進行適度的反範(例如,設計寬表結構將人員資訊、幹部資訊等多表的資料合併起來)和彙總(例如,一些常用的頭彙總、機構彙總等)。
dpa(資料管道區,data pipeline area)或叫維度標籤明細層,主要包含如下一些部分,最細粒度的主鍵、下游報表需要展現的維度、數量金額型的度量、報表指標等的一些彙總性指標(打標籤)、報表篩選時用到的過濾欄位及下鑽到明細要展示的屬性字段等等。
考慮到資料的效能,標籤值應該用(0,1)表示,而不能將不符便條件的置空。
個人的想法,數倉以後的類似專案可以由如下幾層構成,ssa-->sor-->dpa-->dds。
其中,dds(維度資料儲存 dimensional data storage)與原始方案及蘇寧售後的集市展現層(dm, data mart)應無本質區別,可能主要是分層的名稱都由三個字母組成,方便好記。
蘇寧零售雲 App 穩定保障實踐
n n 零售雲主要是to b的業務,目標t4 t6級市場的加盟店,授權店,跟to c業務相比,有以下有個不同點 n n 1 系統問題需要門店上報給運營,運營再同步給研發負責人,問題的流程較長響應比較慢。n2 研發需要跟門店人員確認操作過程,甚至借用登入賬號,體驗不好。n n 在監控上我們做了兩個方面...
蘇寧零售雲 App 穩定保障實踐
零售雲主要是to b的業務,目標t4 t6級市場的加盟店,授權店,跟to c業務相比,有以下有個不同點 1 系統問題需要門店上報給運營,運營再同步給研發負責人,問題的流程較長響應比較慢。2 研發需要跟門店人員確認操作過程,甚至借用登入賬號,體驗不好。在監控上我們做了兩個方面的工作 1 雲跡效能監控,...
蘇寧零售雲 App 穩定保障實踐
零售雲主要是to b的業務,目標t4 t6級市場的加盟店,授權店,跟to c業務相比,有以下有個不同點 1 系統問題需要門店上報給運營,運營再同步給研發負責人,問題的流程較長響應比較慢。2 研發需要跟門店人員確認操作過程,甚至借用登入賬號,體驗不好。在監控上我們做了兩個方面的工作 1 雲跡效能監控,...