阿里資料中臺建模

2021-10-25 01:39:07 字數 3496 閱讀 7190

阿里中颱的概念,可以說是近些年來的頗為火爆的概念。從十餘年前的阿里在內部完成這一過程,並提出了「中臺」概念;到後面中臺概念逐步被外部接受並在2023年爆火興起。資料中颱爆火背後,既有傳統企業轉型焦慮的市場東風,又有阿里中臺戰略示範效應的推波助瀾。下圖為阿里中臺架構(來自網路),其內建「大中台、小前台」的戰略,其中包含了業務中颱和資料中颱的雙中台配置。

從本質上來說,中臺概念更多是一種方**。它來告訴使用者如何構建資料化服務體系,包括從資料整合、資料建模、資料開發、資料共享到資料質量、資料治理等。使用者可以阿里雲或其他中臺產品去快速構建,也完全可以自主完成這一過程。本文就嘗試從資料建模為切入點,描述如何完成這一過程。文中部分內容來自《阿里中臺》一書和阿里雲官網文件。

1. 資料建模概述

1).建模意義

2).模型方** (oltp vs olap) 

3).數倉建模方**

3nf - olap vs oltp

olap中的3nf與oltp系統中的3nf的區別在於,它是站在企業角度面向主題的抽象,而不是針對某個具體業務流程的實體物件關係的抽象。

建模步驟

高層模型:乙個高度抽象的模型,描述主要的主題以及主題間的關係,用於描述企業的業務總體概況。

中層模型:在高層模型的基礎上,細化主題的資料項。

物理模型(也叫底層模型):在中層模型的基礎上,考慮物理儲存,同時基於效能和平台特點進行物理屬性的設計,也可能做一些表的合併、分割槽的設計等。

建模步驟

選擇業務過程。業務過程可以是單個業務事件,比如交易的支付、退款等;也可以是某個事件的狀態,比如當前的賬戶餘額等;還可以是一系列相關業務事件組成的業務流程,具體需要看我們分析的是某些事件發生情況,還是當前狀態,或是事件流轉效率。

選擇粒度。在事件分析中,要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的乙個組合。

識別維表。選擇好粒度之後,就需要基於此粒度設計維表,包括維度屬性,用於分析時進行分組和篩選。

選擇事實。確定分析需要衡量的指標。

2. 維度建模規範

下面以維度建模作為理論基礎,構建匯流排矩陣、劃分和定義資料域、業務過程、維度、度量/原子指標、修飾型別、修飾詞、時間週期、派生指標。整體遵循下面的建模規範。

1).概念層次

2).概念解讀

3).指標體系(指標組成體系之間關係)

派生指標由原子指標、時間週期修飾詞、若干其他修飾詞組合得到。

派生指標唯一歸屬乙個原子指標 ,繼承原子指標的資料域, 與修飾詞的資料域無關。

派生指標可以選擇多個修飾詞,修飾詞之間的關係為"或"或者"且",由具體的派生指標語義決定。

派生指標要繼承原子指標的英文名、資料型別和演算法要求。

3. 維度模型設計

1).模型架構圖

同步:結構化資料增量或全量同步到底層儲存。

結構化:非結構化(日誌)結構化處理並儲存至底層儲存。

累積歷史、清洗:根據資料業務需求及審核和審計要求儲存歷史資料、清洗資料。

公共指標統一加工:基於onedata體系構建命名規範、口徑一致和演算法統一的統計指標,為上層資料產品、應用和服務提供公共指標;建立邏輯彙總寬表。

建立一致性維度:建立一致的資料分析維表,降低資料計算口徑、演算法不統一的風險。

4. 模型實施過程

1).資料調研

2).架構設計

3).規範定義

規範定義主要定義指標體系,包括原子指標、修飾詞、時間週期和派生指標。上面也做了詳細說明,此處不做展開。

4).模型定義

模型設計主要包括維度及屬性的規範定義,維表、明細事實表和彙總事實表的模型設計。

第一步:選擇維度或新建維度

作為維度建模的核心,在企業級資料倉儲中必須保證維度的唯一性。以**商品維度為例,有且只允許有乙個維度定義。

第二步:確定主維表

此處的主維表一般是ods表,直接與業務系統同步。

資料倉儲是業務源系統的資料整合,不同業務系統或者同一業務系統中的表之間存在關聯性。根據對業務的梳理,確定哪些表和主維表存在關聯關係,並選擇其中的某些表用於生成維度屬性

第四步:確定維度屬性

主要包括兩個階段,其中第乙個階段是從主維表中選擇維度屬性或生成新的維度屬性;第二個階段是從相關維表中選擇維度屬性或生成新的維度屬性。

粒度事實表中一條記錄所表達的業務細節程度被稱為粒度。

事實型別

作為度量業務過程的事實,一般為整型或浮點型的十進位制數值,有可加性、半可加性和不可加性三種型別。

* 可加性事實,是指可以按照與事實表關聯的任意維度進行彙總。

* 半可加性事實,只能按照特定維度彙總,不能對所有維度彙總,比如庫存可以按照地點和商品進行彙總,而按時間維度把一年中每個月的庫存累加起來則毫無意義。

* 不可加性事實,還有一種度量完全不具備可加性,比如比率型事實。對於不可加性事實可分解為可加的元件來實現聚集。

事實表型別

* 事務事實表

用來描述業務過程,跟蹤空間或時間上某點的度量事件,儲存的是最原子的資料,也稱為"原子事實表"。事務事實表中的資料在事務事件發生後產生,資料的粒度通常是每個事務一條記錄。一旦事務被提交,事實表資料被插入,資料就不能更改,其更新方式為增量更新。

* 週期快照事實表

以具有規律性的、可預見的時間間隔記錄事實,時間間隔如每天、每月、每年等。週期快照事實表的日期維度通常記錄時間段的終止日,記錄的事實是這個時間段內一些聚集事實值或狀態度量。事實表的資料一旦插入就不能更改,其更新方式為增量更新。

* 累積快照事實表

用來表述過程開始和結束之間的關鍵步驟事件,覆蓋過程的整個生命週期,通常具有多個日期欄位來記錄關鍵時間點,當過程隨著生命週期不斷變化時,記錄也會隨著過程的變化而被修改。另外,它還會有乙個用於指示最後更新日期的附加日期字段。由於事實表中許多日期在首次載入時是不知道的,而且這類事實表在資料載入完成後,可以對其資料進行更新,來補充業務狀態變更時的日期資訊和事實。

5. 資料展示層設計

資料展示層,是需要根據使用者個性化需求來設計。在穩固的底層模型的支援下,上層展示層更為強調靈活組合,快速響應使用者前端互動。經常採用的是「大寬表」的設計,避免關聯,加速顯示。

1).示例:寬表

2).示例:資料視覺化

阿里中臺介紹

1,技術中臺提供了自建系統部分的技術支撐能力,幫助我們解決了基礎設施,分布式資料庫等底層技術問題,為前台特種兵提供了精良的 裝備。2,移動中臺提供了戰場一線火力支援能力,幫助我們提供更加個性化的服務,增強使用者體驗,為戰場提供了陸軍支援能力,隨機應變,所向披靡。3,業務中臺提供重用服務,例如使用者中...

利用阿里雲大資料產品建設資料中臺?

簡介 本次分享介紹客如雲如何利用阿里雲大資料產品來建設資料中臺。客如雲是2012年成立的一家公司,覆蓋餐飲 零售 美業,還有其他的業態以及服務的一家綜合性的saas公司。到2020年為止,客如雲已經服務了60萬商家,幫助60萬商家實現了數位化 智慧型化的改造,接下來我們會覆蓋更多的商家。客如雲技術總...

中颱及資料中臺

資料諮詢公司thoughtworks首席諮詢師王建給出的10字定義 企業級的能力復用平台 最早由阿里2015年提出的 大中台,小前台 戰略中延伸出來的概念,靈感 於馬爸爸15年拜訪了supercell公司。企業前方市場與企業內部支撐的衝突。變化無序穩定有序 前台與後台的衝突。快速響應,低成本試錯紮實...