版本編號 v1.0
發布日期 2017-07-19
作 者
發布範圍 產研大資料團隊
目 錄1 資料架構概述 2
1.1 原始資料層(ods) 3
1.2 資料倉儲層(dw) 3
1.3 資料集市層 (dm) 4
2 資料庫命名規範 4
3 表命名規範 5
3.1 整體原則 5
3.2 原始資料層表命名規範 5
3.3 資料倉儲層表命名規範 5
3.4 資料集市層 6
4 字段命名規範 7
4.1 整體原則 7
1 資料架構概述
資料倉儲架構分三層:原始資料層(ods)、資料倉儲層(dw)、資料集市層(dm)。
資料倉儲層分兩層:明細資料層(dwd)、彙總資料層(dws)。
資料架構示意圖如下:
1.1 原始資料層(ods)
ods為operational data store縮寫。
直接從業務庫同步的運算元據,以及埋點日誌上報資料先整體入ods層。即ods層是整個資料倉儲的資料**。主要是滿足未來大量不可預知需求,以及一些資料核對、資料回滾等服務。該層資料通常需要永久保留。
1.2 資料倉儲層(dw)
在資料倉儲層,整合企業範圍資料,面向企業範圍的各種管理應用提供資料服務。為了更好管理和組織資料,將資料倉儲進一步細分為兩層:明細資料層、彙總資料層。
細節資料層(dwd)
dwd為data warehouse detail縮寫。
明細資料層按主題域存放從ods經過清洗、轉換加工得到的資料,資料粒度與ods層一樣,不經過任何彙總。
細節資料層的資料除了滿足當前可見的資料服務之外,還要滿足一定程度的未來不可預見的應用需求。
-彙總資料層(dws)
dws為data warehouse summary縮寫。
彙總資料層是細節資料層到資料集市層的過渡層次。
彙總資料層是按照主題或者業務對明細資料層的資料進行彙總加工,以便更快、更方便地提供資料查詢服務。
彙總資料層則面向分析型應用進行細粒度的統計和沉澱,並為可預見的多個應用提供資料。
-歷史彙總資料層(dwt)
dws為data warehouse total縮寫。
歷史彙總資料層是細節資料層到資料集市層的過渡層次更深層次的維度彙總。
歷史彙總資料層是按照主題或者業務對明細資料層的所有歷史資料進行維度彙總加工,以便更快、更方便地提供資料查詢歷史服務。
歷史彙總資料層則面向分析型應用進行細粒度的統計和沉澱,並為可預見的多個應用提供資料。
1.3 資料集市層 (dm)
dm為 data mart的縮寫。
資料集市層管理企業範圍內的各種資料倉儲應用,這些應用需要從資料倉儲獲取資料。資料集市層的應用有多種形式:資料探勘、報表、指標、多維資料表等。
2 資料庫命名規範
對資料架構各個分層的資料管理,需要建設相應的資料庫。資料庫名字字母要小寫。
資料庫建設規範如下:
原始資料層建庫名稱為ods
資料倉儲層建三個庫,分別為:
針對明細資料層(dwd),建立乙個資料,該資料庫命名為 dwd;
針對彙總資料層(dws),建立乙個資料庫,該資料庫命名為dws;
對於資料倉儲層的各種實體資料,會涉及到維度資料管理,建立乙個資料庫,存放各種維度資訊,資料庫命名為dim 。
資料集市層(dm)的資料庫建設規範如下:
針對資料探勘類應用,建設乙個資料庫, 該資料庫命名為dmm ;
針對日常報表應用,建設乙個資料庫,該資料庫命名為dmr,
後期可根據各業務結需求為每個業務線建立單獨集市資料庫,命名規範為dm+業務線名稱首字母(如有首字母重複,可根據慣例酌情命名),例:校園:dmx,卓聘:dmh,rpo:dmo,測評:dmc,教育:dme。
針對etl過程需要建臨時表,建立臨時資料庫tmp,所有臨時表都放在此庫,資料最多保留30天,超過30天的資料系統自動刪除。
3 表命名規範
3.1 整體原則
表名字要求採用小寫,表名以庫名為開頭。
3.2 原始資料層表命名規範
源資料層(ods)表命名規範:
ods_
其中:根據具體新同步資料系統名統一編寫;
與源系統庫名相同;
即源資料庫的原始表名相同;
一般有兩種方式, 增量方式:inc,全量方式:all;
即同步/入庫的頻率,按小時入庫:hour,按天入庫:day,按周入庫:week,按月入庫:mon。
3.3 資料倉儲層表命名規範
明細資料層(dwd)表命名規範:
dwd__
其中:見附件「主題域劃分」;
同ods層源系統命名;
為表的資料含義說明,要求能夠清楚地說明物件的含義;只能由字母、數字和"_"(下劃線)構成,不能包含源資料庫名;應採用能夠準確反映其中文含義的英文單詞或英文單詞縮寫構成,避免出現英文單詞和漢語拼音混用的情況;
「hour」按小時分割槽增量資料,「¬_day」資料按天分割槽增量資料,「mon」按月分割槽增量資料,「all」表示按天全量表。
彙總資料層(dws)表命名規範:
dws_
其中:見附件「主題域劃分」;
見附件「主題域劃分」;
為表的資料含義說明,要求能夠清楚地說明物件的含義;
「_hour」按小時分割槽增量資料,「¬_day」資料按天分割槽增量資料,「_mon」按月分割槽增量資料, 「_his」表示拉鍊表,「_all」表示全量表。
3.4 資料集市層
資料集市層(dm)表命名規範:
_其中:
為表所在的資料庫名,如dmr庫存放日常報表資料。
見附件「主題域劃分」;
見附件「主題域劃分」;
為表的資料含義說明,要求能夠清楚地說明物件的含義;
「_hour」按小時分割槽增量資料,「¬_day」資料按天分割槽增量資料,「_mon」按月分割槽增量資料, 「_his」表示拉鍊表,「_all」表示全量表。
4 字段命名規範
4.1 整體原則
表的欄位名字要求採用小寫。
欄位的中文名稱和英文名稱目前由附件「字段命名規範」詞根資料字典表構成,隨著資料倉儲表和集市應用的增加,會不斷對欄位詞根資料字典進行完善。如果發現詞根資料字典不能滿足建模需要,則需要通知模型團隊進行增加。
如何建設資料倉儲?
資料倉儲作為企業提供決策支援而構建的整合化資料環境,本身並不產生或者消費資料,基本架構包含的是資料流入流出的過程,首先放上一張資料倉儲的架構圖。資料倉儲作為中間整合化資料管理的乙個平台,底層有多種資料 流入資料倉儲之後對上層應用開放。1 分析業務需求,確定資料倉儲主題 資料模型的建立依賴資料倉儲主題...
如何建設資料倉儲?
資料倉儲的概念由來已久,相信大家早已不再陌生,其主要目的是為管理決策提供資料支撐和依據。於是數倉工具顯得尤為重要。資料倉儲,顧名思義,就是儲存資料的倉庫。現實中的倉庫會有不同的分割槽和歸類,分割槽下有多個貨架,貨架上堆放著各種各樣的商品。對於資料倉儲來說,分割槽歸類就類似於資料倉儲的基礎架構,資料倉...
資料倉儲建設 資料建模
首先我們先檢視三個問題 什麼是資料模型 為什麼需要資料模型 如何建立資料模型 一 什麼是資料模型 資料模型是抽象描述現實世界的一種工具和方法,是通過抽象的實體及實體之間聯絡的形式,來表示現實世界中事務的相互關係的一種對映。在這裡,資料模型表現的抽象的實體和實體之間的關係,通過對實體和實體之間關係的定...