3. 資料整合及管理體系
3.3 分層建模
3.3.2 分層模型設計原則
3.4 主題域
3.5 建模實施
reference
隨著dt時代的發展,資料出現了爆發式的增長,需要對資料進行有序,有結構的分類組織和儲存,以方便應用。
合適的資料建模,能帶來以下幾點好處:
關係模型嚴格遵循第三正規化(3nf),較鬆散零碎,物理表數量多,資料冗餘程度低。由於資料分布於眾多的表中,這些資料可以更為靈活地被應用,功能性較強。
數倉中的關係建模與oltp系統的區別在於,他是站在企業角度面向主體的抽象,而不是針對某個具體的業務流程的物件關係抽象。特點如下:
維度建模從分析決策的需求出發構建模型,為分析需求服務,因此它重點關注使用者如何更快的完成需求分析,同時具有較好的大規模複雜查詢的相應效能。
其典型的代表是星形模型,以及在一些特殊場景下使用的雪花模型。
只有建設高效的資料模型和體系,對資料進行有序和有結構的分類和組織,才能避免重複建設和資料不一致等問題,保證資料的規範性,進而讓資料源源不斷的產生價值。
資料域:指面向業務分析,將業務過程或者維度進行抽象的集合。其中,業務過程可以概括為乙個個不可拆分的行為事件,在業務過程下,可以定義指標。維度是指度量的環境,如買家下單事件,買家是維度。
業務過程:指企業的業務活動事件,如下單,支付,退款都是業務過程。請注意,業務過程是乙個不可拆分的行為事件。
裝飾型別:是對裝飾詞的一種抽象劃分。修飾型別從屬於某個業務域,如日誌域的訪問終端型別涵蓋無線端,pc端等。
裝飾詞:指除了統計維度以外指標的業務場景限定抽象。修飾詞隸屬於一種修飾型別,如在日誌域的訪問終端型別下,有修飾詞如無線端,pc端等。
原子指標/度量:原則指標和度量含義相同。如支付金額。
原子指標:基於某一業務事件行為下的度量,是業務定義中不可再拆分的指標,具有明確業務含義的名詞,如支付金額
派生指標:派生指標=乙個原子指標+若干修飾詞+時間週期。如最近1天海外買家支付金額
派生指標可以分為三類:
中文名英文名
中文名英文名昨日-
自然周_cw
最近7日
_7d自然季度
_cq最近90日
_3m最近180日
_6m最近3日
_3d自然月
_cm最近60日
_2m最近1小時
_1h最近30日
_1m零點截至當前
_tt最近14日
_14d
年初截至昨日
_sdps:非時間修飾詞,阿里的方案是在最後增加修飾詞序號,如chat_amt_7d_0001
a)運算元據層(ods)
把系統資料無處理的存放在資料倉儲中。
儲存資料倉儲的源接入資料,分為兩類,一類是關係型資料(比如mysql)到hive的儲存,一類是非關係型資料(比如**訪問日誌、廣告日誌log)在hive的儲存,此外還有一類資料也可歸入ods層,使用到的其他事業部的資料表。
b)dw基礎模型層
細分兩層,基礎明細層和基礎彙總層
基礎明細表(日誌表),dw層明細資料儲存層,儲存資料倉儲的最底層明細資料,該層資料與ods源資料粒度相同,是對ods做過過濾、清洗、轉化後統一的規整的資料儲存。
基礎彙總資料表,dw層彙總資料儲存層,該層儲存對明細資料的維度彙總資料,這裡的維度包括(日期維度,業務維度等)。
c)主題寬表
主題寬表 ,大寬表集市,儲存兩類資料,一類是主題歸併的寬表,一類是主題內基於dw資料的高階分析表。
d)應用資料層
應用資料表:儲存面向應用的資料,包括(資料應用系統模型、報表模型等)
(1) 高內聚和低耦合,業務相近或相關,粒度相同的資料設計為乙個邏輯或者無力模型。將高概率同時訪問的資料放在一起。
(2) 核心模型與擴充套件模型分離,核心模型包含常用核心業務的字段,擴充套件模型包括一些特定的或者少量使用的應用字段。
(3) 公共處理邏輯下沉及單一,越是公共資料越要在資料底層封裝,避免暴露其處理邏輯,公共邏輯不要多出存在。
(4) 成本和效能平衡,適當的資料冗餘,但不能多。
(5) 一致性,具有相同含義的字段在不同表中命名一致,如果是歷史因素造成不一致,在亞當進行相應管理。
(6) 命名清晰,可理解。
主題(subject)是在較高層次上將企業資訊系統中的資料進行綜合、歸類和分析利用的乙個抽象概念,每乙個主題基本對應乙個巨集觀的分析領域。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。典型的主題領域包括顧客、產品、訂單和財務或是其他某項事務或活動。
主題域是對某個主題進行分析後確定的主題的邊界。
大資料之路–阿里巴巴大資料實踐
數倉建模綜述
隨著大型關聯式資料庫商業軟體的興起,現代企業資訊系統幾乎都在使用關聯式資料庫來儲存 加工和處理資料。資料倉儲系統也不例外,大量的資料倉儲系統依託強大的關聯式資料庫能力儲存和處理資料,其採用的資料模型方法也是基於關聯式資料庫理論的。儘管 nosql也有 一定的發展,但是企業仍在大規模使用sql進行資料...
數倉 正規化建模 維度建模
third normal form,3nf 是資料模型常用的乙個方法,主要解決關係型資料庫的資料儲存。目前關係型資料庫的建模方法,大部分採用三正規化建模,即通過實體關係 entity relationship,er 模型描述企業業務。是資料倉儲之父inmon提出的集線器的自上而下 edw dm 的資...
資料倉儲與數倉建模
資料倉儲,英文名為data warehouse,簡寫為dw或dwh。資料倉儲,是乙個面向主題的 整合的 隨時間變化的 但資訊本身相對穩定的資料集合,用於對管理決策過程的支援1。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及...