資料中颱的設計

2021-10-01 13:18:37 字數 3322 閱讀 8178

資料中颱的概念由阿里巴巴首次提出,它是乙個承接技術,引領業務,構建規範定義的,全域可連線萃取的,智慧型的資料處理平台,建設目標是為了高效滿足前台資料分析和應用的需求。資料中颱是涵蓋了資料資產、資料治理、資料模型、垂直資料中心、全域資料中心、萃取資料中心、資料服務等多個層次的體系化建設方法。

1.1資料中臺建設的方**

1.2資料中臺建設的內容

標準規範資料結構與研發,統一基礎層、公共中間層、百花齊放的應用層的資料分層架構模式,通過資料指標結構化規範化的方式實現指標口徑統一。

連線和深度萃取資料價值,形成以業務核心物件為中心的連線和標籤體系,深度萃取資料的價值。

統一資料資產管理,構建元資料中心,通過資產分析、應用、優化、運營四方面對看清資料資產、降低資料管理成本、追蹤資料價值。

統一主題式服務,通過構建元資料服務中心和資料服務查詢引擎,面向業務統一資料出口與資料查詢邏輯,遮蔽多資料來源雨多物理表。

1.3資料中颱的設計方法

1.3.1 資料模型層次設計

資料中颱將資料分為運算元據層(ods)、公共維度模型層(cdm,包括明細資料層dwd,彙總資料層dws)、應用資料層(ads)。

cdm層:

存放明細事實資料、維表資料和公共指標彙總資料。cdm層又細分為dwd和dws層,分別是明細寬表層和公共彙總資料層,採取維度模型方法基礎,更多採用一些維度退化手法,減少事實表和維度表的關聯,容易維度到事實表強化明細事實表的易用性,同時在彙總資料層,加強指標的維度退化,採取更多寬表化的手段構建公共指標資料層,提公升公共指標的復用性,減少重複的加工。

公共指標統一加工:統一的命名規範,口徑一致、演算法統一

建立一致性的維度:建立一致性的資料分析維表,降低資料計算口徑不統一的風險。

ads層:

存放資料產品個性化的統計指標資料,根據cdm層和ods層加工生成。

設計原則如圖:

1.3.2資料規範定義設計

規範定義是指以維度建模作為理論基礎,構建匯流排矩陣,劃分和定義資料域、業務過程、維度、度量\原子指標、修飾型別、修飾詞、時間週期、衍生指標、修飾型別、修飾詞、時間週期。一般指標組成體系可以劃分為:原子指標衍生指標修飾型別修飾詞時間週期

支付訂單金額+最近7天+**=最近7天**的成交金額

表名的命名規範:

ods:ods_業務庫名_業務庫的原始表名_增量|全量標識

dwd:dwd_主題縮寫_業務過程縮寫_自定義標籤縮寫_單分割槽增量|全量標識

dws:dws_資料域縮寫_自定義縮寫_重新整理周期標識

ads:ads_業務應用縮寫_維度_自定義縮寫_重新整理周期標識

dim:dim_

資料模型設計

維度建模是專門用於分析型資料庫、資料倉儲、資料集市建模的方法,維度建模以分析決策的需求出發構建模型,構建的資料模型為分析需求服務,因此它重點解決使用者如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應效能。

維度表表示對分析主題所屬型別的描述。比如"昨天早上張三在**花費200元購買了乙個皮包"。那麼以購買為主題進行分析,可從這段資訊中提取三個維度:時間維度(昨天早上),地點維度(**), 商品維度(皮包)。通常來說維度表資訊比較固定,且資料量小。

事實表表示對分析主題的度量。比如上面那個例子中,200元就是事實資訊。事實表包含了與各維度表相關聯的外碼,並通過join方式與維度表關聯。事實表的度量通常是數值型別,且記錄數會不斷增加,表規模迅速增長。

維度建模常見的由星型模型、雪花模型和星座模型三種,資料中臺設計一般採用星型模型。

大家已經意識到資料是企業最寶貴的資產了,前面講的都是企業資料建設的方法,奶企業如何把自己的資料資產建設好、管好和用好?這不僅僅需要方**和管理制度,更需要乙個視覺化的資料管理工具,實現複雜的資料資產運維簡單化,可以從三個方面實現資料資產的管理。

2.1.資料地圖管理

資料地圖是對整個資料中颱內的資料進行統一查詢、管理的地圖,資料地圖主要面向資料開發者,匯聚使用者所有資料資訊,通過元資料資訊收集、資料血緣探查、資料許可權申請授權等手段,幫助資料中心專有雲完成資料資訊的收集和管理,解決「有哪些資料可用」、「到**可以找到資料」的難題,並且提公升資料資產的利用率。

2.2資料模型管理

資料模型管理,主要是為了解決架構設計和資料開發的不一致性,是為了約束平台使用者的表名、欄位名的規範性,架構師從工具層合理的進行模型分層和統一開發規範,包括兩部分,乙個是規則配置,另乙個是對錶名、欄位名的定期的校驗。

規則配置:可以配置表名必須有哪幾個元素組成,比如表名=資料倉儲所屬層級+表所屬主題+資料更新週期+增量|全量,按照這個規則,表名如dws_sale_channel_day_full,這樣的話,這張表是做什麼的就一目了然了。

定期的校驗:可以對錶名、欄位名做定期的校驗,告訴你那些表,哪些欄位是不符合要求的,這樣的話,平台長期運營下去,依然會處於比較健康的狀態。

在實際的生產中,資料的計算任務沒有警告,但不代表資料是正確的,比如資料來源異常、**邏輯修改等原因都會造成結果資料錯誤。資料質量是保證資料正確性的工具,主要包括這麼幾個部分:一是支援準確性校驗規則,二是支援雙表校驗,三是輸出校驗報告。

雙表校驗配置:資料遷移、重要的邏輯變更時需要保證資料的一致性,傳統方式採用的是人工編寫sql的檢驗方式,數棧-valid提供自動化校驗功能,僅需頁面配置即可完成海量資料的一致性校驗。

輸出質量報告:支援字段級、表級校驗報告,具備歷史資料統計的功能,輔助定位資料質量的問題根源會定期的自動執行校驗規則,輸出校驗報告。

總結資料時代帶來的挑戰不僅僅是資料量的爆發式增長,更重要是如何管理好、治理好、利用好這些資料,顯然傳統的大資料建設方**無法滿足需求。

如果把大資料建設工作比如蓋高樓的話,那麼大資料平台開發和管理工具(數棧)就是打樁機、挖土機、推土機、塔吊…,過程中嚴苛、繁瑣、體系的開發、治理、分析建設方**(資料中臺)就是樓層規劃、戶型設計、房屋建造…,資料服務就是業主個性化的裝修。

中臺之中臺的設計

通過discovery和define完成了第一輪企業級別的發散和收斂。即 站在企業的高度,基於企業願景和內外部環境,通過戰略分解和現狀調研,應用企業架構的方法確定了最終的平台型企業架構,並確定了需要哪些中臺,以及建設先後的問題。中颱的設計階段 進行第二輪的發散和收斂,站在乙個中臺產品的視角,看看如何...

中臺之中臺的設計

通過discovery和define完成了第一輪企業級別的發散和收斂。即 站在企業的高度,基於企業願景和內外部環境,通過戰略分解和現狀調研,應用企業架構的方法確定了最終的平台型企業架構,並確定了需要哪些中臺,以及建設先後的問題。中颱的設計階段 進行第二輪的發散和收斂,站在乙個中臺產品的視角,看看如何...

中颱及資料中臺

資料諮詢公司thoughtworks首席諮詢師王建給出的10字定義 企業級的能力復用平台 最早由阿里2015年提出的 大中台,小前台 戰略中延伸出來的概念,靈感 於馬爸爸15年拜訪了supercell公司。企業前方市場與企業內部支撐的衝突。變化無序穩定有序 前台與後台的衝突。快速響應,低成本試錯紮實...