大資料倉儲越來越重視元資料的管理,但是元資料怎麼管理,還處於探索階段。
這樣帶來的弊端顯而易見,就是1)及時性達不到,2)準確性達不到,3)同步性也達不到。它只是結項的必交的文件而已。
二、越來越多的角色的人使用數倉,迫切需要乙個介面展示具體指的意思,業務統計口徑等,用乙個web介面展示,但是後端還是excel
三、自動採集資料字典系統。既然手工不符合業務需求,就希望自動採集資料的元資料。
(1)對於關係型資料庫,定時ddl管理系統查詢,最近有變更的表及其表結構
(2)對於hive半分鐘掃瞄查詢一次metastroe,獲取最近的ddl的表名,再通過hive jdbc做表結構同步
(3)定期全量從資料庫中同步所有的表
元資料管理的同時,推行資料庫建表規範,每個字段,每個表都有注釋,ddl變更資料報警,及時採集元資料內容。
四、傳統數倉就是在資料庫的基礎上建立數倉架構,但大資料不同,有資料採集系統,資料處理系統,通過kafka,es,redis,hbase等等**實現。而且元資料也不僅僅是表的元資料,將元資料分為:技術元資料、業務元資料、過程元資料,管理元資料等等。
技術元資料,如表機構,檔案路徑等;通過 ddl等獲取
業務元資料,如責任人,歸屬的業務,血緣關係;通過sql,比如寫的儲存過程或etl。對hive提供的抽象語法樹解析**獲取血緣分析。通過etl共計獲取源表和目標表;對於指令碼,這類,採用人工
過程元資料,如表的行數,大小,更新時間。通過資料庫將表更新的行資料,時間等獲取
管理元資料,如表的使用者,等
元資料管理
元資料管理的核心功能如下 在操作方式上分為自動採集和手動採集兩種 同時,提供採集日誌資訊的檢視,檢查採集是否成功。檢視採集日誌可以查詢到採集任務的如下資訊 開始時間 任務狀態 結束時間 過程日誌,採集的數量等等。元資料採集完成後,儲存在資料庫中,支撐包括元資料統計 查詢 血緣分析 影響性分析 資料資...
HDFS元資料管理
hdfs的目錄結構,包含哪些資料夾子資料夾,以及資料夾下面包含哪些檔案,以及每個檔案的block資訊 id,副本係數,block存放在那個datanode上 元資料存放在 name路徑下。在namenode的記憶體中有乙個樹形結構,存放的就是元資料資訊,對檔案的任何修改都在記憶體中有體現,但是如果機...
DevOps元資料管理
元資料是自動化運維的基礎,對元資料的管理和查詢貫穿整個運維的生命週期。我們從乙個元資料的使用場景開始 雙十一搶購火熱進行中,某電商後端例項的日誌 現了502錯誤碼,運維平台監測到該異常並傳送告警給相關運維。在這個過程中,運維元資料發揮了什麼作用?回答這個問題前,我們先回顧下元資料是什麼。運維系統中的...