資料管理之元資料

2021-09-14 01:32:45 字數 2060 閱讀 4457

按照傳統的定義,元資料( metadata )是關於資料的資料。

元資料打通了源資料、資料倉儲、資料應用,記錄了資料從產生到消費的全過程。元資料主要記錄資料倉儲中模型的定義、各層級間的對映關係、監控資料倉儲的資料狀態及 etl 的任務執行狀態。

將元資料按用途的不同分為兩類:

技術元資料( technical metadata)和業務元資料( business metadata )。

技術元資料是儲存關於資料倉儲系統技術細節的資料,是用於開發和管理資料倉儲使用的資料。阿里巴巴常見的技術元資料有:

1)分布式計算系統儲存元資料

2)分布式計算系統執行元資料

3)資料開發平台中資料同步、計算任務、任務排程等資訊

4)資料質量和運維相關元資料,

業務元資料從業務角度描述了資料倉儲中的資料,它提供了介於使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠「 讀懂」資料倉儲中的資料。

阿里巴巴常見的業務元資料有 :

1)onedata 元資料,如維度及屬性、業務過程、指標等的規範化定義,用於更好地管理和使用資料。

2) 資料應用元資料,如資料包表、資料產品等的配置和執行元資料。

元資料有重要的應用價值,是資料管理、資料內容、資料應用的基礎,

資料管理方面為集團資料提供在計算、儲存、成本、質量、安全、模型等治理領域上的資料支援。例如在計算上可以利用元資料查詢超長執行節點,對這些節點進行專項治理,保障基線產出時間。

資料內容方面為集團資料進行資料域、資料主題、業務屬性等的提取和分析提供資料素材。例如可以利用元資料構建知識圖譜,給資料打標籤,清楚地知道現在有哪些資料。

資料應用方面打通產品及應用鏈路,保障產品資料準確、及時產出。例如打通 maxcompute 和應用資料,明確資料資產等級,更有效地保障產品資料。

元資料的質量直接影響到資料管理的準確性,如何把元資料建設好將起到至關重要的作用。元資料建設的目標是打通資料接入到加工 ,再到資料消費整個鏈路,規範元資料體系與模型,提供統一的元資料服務出口,保障元資料產出的穩定性和質量。

資料的真正價值在於資料驅動決策,通過資料指導運營。

它的核心思路是為紛繁複雜的資料建立乙個脈絡清晰的血緣圖譜。通過圖計算、標籤傳播演算法等技術 ,系統化、自動化地對計算與儲存平台上的資料進行打標、整理、歸檔。形象地說, data profile 實際承擔的是為元資料「畫像」的任務。

阿里巴巴基於元資料產出的最重要的產品是元資料門戶。元資料門戶致力 打造一站式 的資料管理平台、高效的一體化資料市場。包括「前台」和 i「後台」,「前台」產品為資料地圖,定位消費市場,實現檢索資料 、 理解資料等「找資料」需求 e 「後台」產品為資料管理,定位於一站式資料管理,實現成本管理、安全管理、質量管理等。

通過應用鏈路分析,產出表級血緣、字段血緣和表的應用血緣。其中表級血緣主要有兩種計算方式:一種是通過 maxcompute 任務日誌進行解析;一種是根據任務依賴進行解析。

常見的應用鏈路分析應用主要有影響分析、重要性分析、下線分析、鏈路分析、尋根溯源、故障排查等。

元資料主要有 :

表的基礎元資料,包括下游情況、查詢次數、關聯次數、聚合次數、產出時間等。

表的關聯關係元資料,包括關聯表、關聯型別、關聯字段、關聯次數等。

表的字段的基礎元資料,包括欄位名稱、字段注釋、查詢次數、關聯次數、聚合次數、過濾次數等。

元資料管理

大資料倉儲越來越重視元資料的管理,但是元資料怎麼管理,還處於探索階段。這樣帶來的弊端顯而易見,就是1 及時性達不到,2 準確性達不到,3 同步性也達不到。它只是結項的必交的文件而已。二 越來越多的角色的人使用數倉,迫切需要乙個介面展示具體指的意思,業務統計口徑等,用乙個web介面展示,但是後端還是e...

元資料管理

元資料管理的核心功能如下 在操作方式上分為自動採集和手動採集兩種 同時,提供採集日誌資訊的檢視,檢查採集是否成功。檢視採集日誌可以查詢到採集任務的如下資訊 開始時間 任務狀態 結束時間 過程日誌,採集的數量等等。元資料採集完成後,儲存在資料庫中,支撐包括元資料統計 查詢 血緣分析 影響性分析 資料資...

資料倉儲之元資料管理

元資料 meta data 主要記錄資料倉儲中模型的定義 各層級間的對映關係 監控資料倉儲的資料狀態及 etl 的任務執行狀態。一般會通過元資料資料庫 metadata repository 來統一地儲存和管理元資料,其主要目的是使資料倉儲的設計 部署 操作和管理能達成協同和一致。元資料是資料倉儲管...