之前漏了個很重要的東西沒說明,因為我使用得不多,但是又非常重要的傢伙—元資料。
元資料(metadata),又稱中介資料、中繼資料,為描述資料的資料,主要是描述資料屬性的資訊,用來支援如指示儲存位置、歷史資料、資源查詢、檔案記錄等功能
如果你進到了公司第一時間找相關負責人那業務元資料看看,有助於你日後的工作,如資料分析,sql編寫等等
元資料的管理最簡單的可以使用一些文件記錄下來,技術有能力或者時間就自己開發一套元資料管理系統,
或者使用第三方的元資料管理工具。
吐槽:
試想一下,你作為乙個新人接手別人的工作,沒有文件,程式沒有注釋,資料庫中的表和字段也沒有任何描述,你是不是會罵人了?
業務系統發生改變,刪除了乙個字段,需要資料倉儲也做出相應調整的時候,
工程師如何知道改這個欄位會對哪些程式產生影響?
源系統表的字段及其含義,源系統資料庫的ip、介面人,資料倉儲表的字段及其含義,
源表和目標表的對應關係,乙個任務對應的源表和目標表,任務之間的依賴關係,
任務每次執**況等等等等,這些元資料如果都能嚴格的管控起來,上面的問題肯定不會是問題了。。。
1.元資料說明
元資料分為技術元資料、業務元數、,元資料管理在資料建設起著舉足輕重的作用,通常元資料儲存在mysql資料庫中。
1.1元資料記錄了哪些資訊?
1.資料的表結構:字段資訊、分割槽資訊、索引資訊等;
2.資料的使用&許可權:空間儲存、讀寫記錄、修改記錄、許可權歸屬、審核記錄等其他資訊;
3.資料的血緣關係資訊:血緣資訊簡單的說就是資料的上下游關係,資料從**來到**去?我們通過血緣關係,可以了解到建立起生產這些資料的任務之間的依賴關係,進而輔助排程系統的工作排程,或者用來判斷乙個失敗或錯誤的任務可能對哪些下游資料造成影響等等;而在資料排查過程中也可以幫助我們定位問題。
4.資料的業務屬性資訊:記錄這張表的業務用途,各個欄位的具體統計口徑、業務描述、歷史變遷記錄、變遷原因等。這部分資料多是我們手動填寫,但卻能大大提公升資料使用過程中的便利性。
2.在數倉的體現如下:
(1)血緣管理
血緣管理可以追溯資料加工整體鏈路,解析表的來龍去脈,用於支撐各類場景,如:
如下是某乙個資料模型中的血緣圖,上下游以不同顏色進行呈現依賴關係如下:
(2)資料知識管理
通過對技術、業務元資料進行清晰、詳盡地描述,形成資料知識,給資料人員提供更好的使用嚮導。
ps:這裡開發同事小哥哥推薦一款元資料工具atlas:
apache atlas是hadoop社群為解決hadoop生態系統的元資料治理問題而產生的開源專案,它為hadoop集群提供了包括 資料分類、集中策略引擎、資料血緣、安全和生命週期管理在內的元資料治理核心能力。
元資料 and 元資料標準
一般銀行內的系統建設環境分為三個 開發環境 測試環境與生產環境,每乙個系統建設的週期都需要經過前兩個環境才能正式進入生產環境。然而在系統的設計 開發 測試 上線過程中,無論是需求變更還是bug修改都避免不了資料模型也就是元資料的改動。大到庫表結構重新設計,小到乙個字段型別的變更,都可能對程式造成影響...
mysql 元資料 MySQL 元資料
mysql 元資料 你可能想知道mysql以下三種資訊 查詢結果資訊 select,update 或 delete語句影響的記錄數。資料庫和資料表的資訊 包含了資料庫及資料表的結構資訊。mysql伺服器資訊 包含了資料庫伺服器的當前狀態,版本號等。在mysql的命令提示符中,我們可以很容易的獲取以上...
資料治理 元資料 元資料的作用
元資料的主要作用 相信看到這個部落格,您已經對什麼是元資料有了一定的了解,如果還不夠了解可以網上搜一下,也可以參見我的另一篇部落格 資料治理 元資料 定義 url 元資料的作用主要體現在以下幾方面 1 便捷的業務導航 可以讓相關人員更快的理解組織內的業務範圍,業務流程,應用系統,資料類別,歸屬關係等...