阿里中颱的概念,可以說是近些年來的頗為火爆的概念。從十餘年前的阿里在內部完成這一過程,並提出了「中臺」概念;到後面中臺概念逐步被外部接受並在2023年爆火興起。資料中颱爆火背後,既有傳統企業轉型焦慮的市場東風,又有阿里中臺戰略示範效應的推波助瀾。下圖為阿里中臺架構(來自網路),其內建「大中台、小前台」的戰略,其中包含了業務中颱和資料中颱的雙中台配置。
從本質上來說,中臺概念更多是一種方**。它來告訴使用者如何構建資料化服務體系,包括從資料整合、資料建模、資料開發、資料共享到資料質量、資料治理等。使用者可以阿里雲或其他中臺產品去快速構建,也完全可以自主完成這一過程。本文就嘗試從資料建模為切入點,描述如何完成這一過程。文中部分內容來自《阿里中臺》一書和阿里雲官網文件。
1. 資料建模概述
1).建模意義
2).模型方** (oltp vs olap)
3).數倉建模方**
3nf - olap vs oltp
olap中的3nf與oltp系統中的3nf的區別在於,它是站在企業角度面向主題的抽象,而不是針對某個具體業務流程的實體物件關係的抽象。
建模步驟
高層模型:乙個高度抽象的模型,描述主要的主題以及主題間的關係,用於描述企業的業務總體概況。
中層模型:在高層模型的基礎上,細化主題的資料項。
物理模型(也叫底層模型):在中層模型的基礎上,考慮物理儲存,同時基於效能和平台特點進行物理屬性的設計,也可能做一些表的合併、分割槽的設計等。
建模步驟
選擇業務過程。業務過程可以是單個業務事件,比如交易的支付、退款等;也可以是某個事件的狀態,比如當前的賬戶餘額等;還可以是一系列相關業務事件組成的業務流程,具體需要看我們分析的是某些事件發生情況,還是當前狀態,或是事件流轉效率。
選擇粒度。在事件分析中,要預判所有分析需要細分的程度,從而決定選擇的粒度。粒度是維度的乙個組合。
識別維表。選擇好粒度之後,就需要基於此粒度設計維表,包括維度屬性,用於分析時進行分組和篩選。
選擇事實。確定分析需要衡量的指標。
2. 維度建模規範
下面以維度建模作為理論基礎,構建匯流排矩陣、劃分和定義資料域、業務過程、維度、度量/原子指標、修飾型別、修飾詞、時間週期、派生指標。整體遵循下面的建模規範。
1).概念層次
2).概念解讀
3).指標體系(指標組成體系之間關係)
派生指標由原子指標、時間週期修飾詞、若干其他修飾詞組合得到。
派生指標唯一歸屬乙個原子指標 ,繼承原子指標的資料域, 與修飾詞的資料域無關。
派生指標可以選擇多個修飾詞,修飾詞之間的關係為"或"或者"且",由具體的派生指標語義決定。
派生指標要繼承原子指標的英文名、資料型別和演算法要求。
3. 維度模型設計
1).模型架構圖
同步:結構化資料增量或全量同步到底層儲存。
結構化:非結構化(日誌)結構化處理並儲存至底層儲存。
累積歷史、清洗:根據資料業務需求及審核和審計要求儲存歷史資料、清洗資料。
公共指標統一加工:基於onedata體系構建命名規範、口徑一致和演算法統一的統計指標,為上層資料產品、應用和服務提供公共指標;建立邏輯彙總寬表。
建立一致性維度:建立一致的資料分析維表,降低資料計算口徑、演算法不統一的風險。
4. 模型實施過程
1).資料調研
2).架構設計
3).規範定義
規範定義主要定義指標體系,包括原子指標、修飾詞、時間週期和派生指標。上面也做了詳細說明,此處不做展開。
4).模型定義
模型設計主要包括維度及屬性的規範定義,維表、明細事實表和彙總事實表的模型設計。
第一步:選擇維度或新建維度
作為維度建模的核心,在企業級資料倉儲中必須保證維度的唯一性。以**商品維度為例,有且只允許有乙個維度定義。
第二步:確定主維表
此處的主維表一般是ods表,直接與業務系統同步。
資料倉儲是業務源系統的資料整合,不同業務系統或者同一業務系統中的表之間存在關聯性。根據對業務的梳理,確定哪些表和主維表存在關聯關係,並選擇其中的某些表用於生成維度屬性
第四步:確定維度屬性
主要包括兩個階段,其中第乙個階段是從主維表中選擇維度屬性或生成新的維度屬性;第二個階段是從相關維表中選擇維度屬性或生成新的維度屬性。
粒度事實表中一條記錄所表達的業務細節程度被稱為粒度。
事實型別
作為度量業務過程的事實,一般為整型或浮點型的十進位制數值,有可加性、半可加性和不可加性三種型別。
* 可加性事實,是指可以按照與事實表關聯的任意維度進行彙總。
* 半可加性事實,只能按照特定維度彙總,不能對所有維度彙總,比如庫存可以按照地點和商品進行彙總,而按時間維度把一年中每個月的庫存累加起來則毫無意義。
* 不可加性事實,還有一種度量完全不具備可加性,比如比率型事實。對於不可加性事實可分解為可加的元件來實現聚集。
事實表型別
* 事務事實表
用來描述業務過程,跟蹤空間或時間上某點的度量事件,儲存的是最原子的資料,也稱為"原子事實表"。事務事實表中的資料在事務事件發生後產生,資料的粒度通常是每個事務一條記錄。一旦事務被提交,事實表資料被插入,資料就不能更改,其更新方式為增量更新。
* 週期快照事實表
以具有規律性的、可預見的時間間隔記錄事實,時間間隔如每天、每月、每年等。週期快照事實表的日期維度通常記錄時間段的終止日,記錄的事實是這個時間段內一些聚集事實值或狀態度量。事實表的資料一旦插入就不能更改,其更新方式為增量更新。
* 累積快照事實表
用來表述過程開始和結束之間的關鍵步驟事件,覆蓋過程的整個生命週期,通常具有多個日期欄位來記錄關鍵時間點,當過程隨著生命週期不斷變化時,記錄也會隨著過程的變化而被修改。另外,它還會有乙個用於指示最後更新日期的附加日期字段。由於事實表中許多日期在首次載入時是不知道的,而且這類事實表在資料載入完成後,可以對其資料進行更新,來補充業務狀態變更時的日期資訊和事實。
5. 資料展示層設計
資料展示層,是需要根據使用者個性化需求來設計。在穩固的底層模型的支援下,上層展示層更為強調靈活組合,快速響應使用者前端互動。經常採用的是「大寬表」的設計,避免關聯,加速顯示。
1).示例:寬表
2).示例:資料視覺化
阿里中臺介紹
1,技術中臺提供了自建系統部分的技術支撐能力,幫助我們解決了基礎設施,分布式資料庫等底層技術問題,為前台特種兵提供了精良的 裝備。2,移動中臺提供了戰場一線火力支援能力,幫助我們提供更加個性化的服務,增強使用者體驗,為戰場提供了陸軍支援能力,隨機應變,所向披靡。3,業務中臺提供重用服務,例如使用者中...
利用阿里雲大資料產品建設資料中臺?
簡介 本次分享介紹客如雲如何利用阿里雲大資料產品來建設資料中臺。客如雲是2012年成立的一家公司,覆蓋餐飲 零售 美業,還有其他的業態以及服務的一家綜合性的saas公司。到2020年為止,客如雲已經服務了60萬商家,幫助60萬商家實現了數位化 智慧型化的改造,接下來我們會覆蓋更多的商家。客如雲技術總...
中颱及資料中臺
資料諮詢公司thoughtworks首席諮詢師王建給出的10字定義 企業級的能力復用平台 最早由阿里2015年提出的 大中台,小前台 戰略中延伸出來的概念,靈感 於馬爸爸15年拜訪了supercell公司。企業前方市場與企業內部支撐的衝突。變化無序穩定有序 前台與後台的衝突。快速響應,低成本試錯紮實...