atlas是hadoop的資料治理和元資料框架。atlas是一組可擴充套件和可擴充套件的核心基礎治理服務,使企業能夠有效,高效地滿足hadoop中的合規性要求,並允許與整個企業資料生態系統整合。apache atlas為組織提供了開放的元資料管理和治理功能,以建立其資料資產的目錄,對這些資產進行分類和治理,並為資料科學家,分析師和資料治理團隊提供圍繞這些資料資產的協作功能。
支援各種hadoop和非hadoop
元資料管理
資料分類
資料血緣
可以支援字段級別的血緣關係
元資料搜尋
可以通過web頁面進行搜尋檢視元資料(庫、表、字段)和血緣關係(表和字段級別)
安全和生命週期管理
通過apache ranger 實現
主要元件:
type system
:定義想要管理的元資料模型。
ingest / export
:匯入和更改元資料
graph engine
:通過使用圖形模型管理元資料物件。
janusgraph
:atlas使用titan圖資料庫來儲存元資料物件。titan使用兩個儲存:預設情況下元資料儲存配置為hbase,索引儲存配置為solr。
api:atlas的所有功能通過rest api提供給終端使用者,允許建立,更新和刪除型別和體。它也是查詢和發現通過atlas管理的型別和實體的主要方法。
messaging
:除了api之外,使用者還可以選擇使用基於 kafka 的訊息介面與atlas整合。
atlas admin ui
:基於web的應用程式,允許資料管理員和科學家發現和注釋元資料。最重要的是搜尋介面和sql樣的查詢語言。
apache ranger
:是針對 hadoop 生態系統的高階安全管理解決方案。
元資料處理的整體流程入下圖所示:
通過kafka監聽hive中的create/update/delete操作,從而更新元資料。
目前支援捕獲的hive操作:
create database
create table/view, create table as select
load, import, export
dmls (insert)
alter database
alter table (skewed table information, stored as, protection is not supported)
alter view
血緣捕獲方式:******、expression、script
注:hive hook只能監聽hive的命令,通過分析hql語句得到血緣關係。
元資料管理
大資料倉儲越來越重視元資料的管理,但是元資料怎麼管理,還處於探索階段。這樣帶來的弊端顯而易見,就是1 及時性達不到,2 準確性達不到,3 同步性也達不到。它只是結項的必交的文件而已。二 越來越多的角色的人使用數倉,迫切需要乙個介面展示具體指的意思,業務統計口徑等,用乙個web介面展示,但是後端還是e...
元資料管理
元資料管理的核心功能如下 在操作方式上分為自動採集和手動採集兩種 同時,提供採集日誌資訊的檢視,檢查採集是否成功。檢視採集日誌可以查詢到採集任務的如下資訊 開始時間 任務狀態 結束時間 過程日誌,採集的數量等等。元資料採集完成後,儲存在資料庫中,支撐包括元資料統計 查詢 血緣分析 影響性分析 資料資...
HDFS元資料管理
hdfs的目錄結構,包含哪些資料夾子資料夾,以及資料夾下面包含哪些檔案,以及每個檔案的block資訊 id,副本係數,block存放在那個datanode上 元資料存放在 name路徑下。在namenode的記憶體中有乙個樹形結構,存放的就是元資料資訊,對檔案的任何修改都在記憶體中有體現,但是如果機...