擁抱開源 雲上元資料管理

2021-07-23 08:05:36 字數 1386 閱讀 7154

上期我們講述的是實現資料工程師夢想的乙個小目標《夢想成真,只差一步》,裡面提到了要實現資料超市的管理,資料工程師需要使用合適的工具將資料進行整理、組合、分類後上架,然後業務分析師和資料科學家就可以使用了。

在整個資料工程師的工作流程中,需要自始至終的進行資料治理:我們需要將每種型別的資料進行清晰的標識以及分類,以利於其它角色的使用者進行查詢以及使用;我們需要將每種資料的使用範圍進行管理以及監控,以使得資料被合理、合法的使用;我們還要管理資料的生存週期以及質量溯源,以利於資料質量可以被監管,無用資料被清除...... 因此本文中我們將著重介紹上圖中標紅框的部分,介紹實現我們夢想的工具open metadata services - 開源元件apache atlas。

1、資料分類 ;

2、集中審計 ;

3、搜尋及溯源 ;

4、安全及策略引擎 ;

它的最核心部分core就是型別管理系統 type system , 使用者可以把資料資產進行型別定義,然後使用ingest/export 的模組進行元資料的匯入、修改、刪除等管理。和外界的介面可以通過rest api或使用kafaka進行訊息交換。資料物件存放在按照圖的模式進行管理的titan圖資料庫中,具體titan又把元資料存放在hbase中,索引存放在solr中。這樣使用者可以非常便捷和直觀的通過層次圖進行瀏覽資訊,可以按照文字進行精確的查詢。

如上圖,我們將資料資產分成了五類,分別是:pipeline、data set、report、model、notebook,具體儲存的屬性是紅色框部分,描述了以上五種資料資產的詳細資訊:例如它是哪型別業務,資料質量如何,歸在哪個專案裡面,具體評級如何、使用者訪問許可權如何等等......

有了這個open data services服務後,我們是否覺得又離夢想近了一步?更詳細的使用我們將在未來文章分享。

ibm對開源社群一直採取大力擁抱以及不遺餘力地進行支援的態度:

ibm基於cloud foundry 打造了世界最大的paas平台bluemix,在上面部署了大量開源的雲資料服務業務 - 例如cloudant源於couchdb,dataworks forge構建在spark平台之上。現在我們將atlas開源元資料管理部署到我們的雲資料治理中,通過實際使用來促進該項目的大力發展。我們有理由相信,未來ibm 將把開源的魔力繼續發揚光大!

擁抱開源IaaS雲平台 360度盤點

擁抱開源iaas雲平台 360度盤點 作為當前最為矚目的開源雲管理平台,openstack社群遍及全球132個國家,得到了來自298家廠商與組織的支援。國外大佬們頻頻向openstack丟擲橄欖枝,ibm在內的眾多硬體廠商已經宣布加入,並推出了基於openstack的相關產品。radware為ope...

資料管理助手

1 採用文字txt檔案作為索引,doc檔案作為內容。txt索引到doc檔案內容的定位。2 每個資料夾作為乙個分類。3 對重要的word檔案可以加密處理,非文件保護功能,而是對內容進行加密處理。解密功能。4 備份功能 1 更新目標資料夾 2 備份全部資料夾。5 全域性搜尋,全域性標題搜尋,當前資料夾 ...

Docker 資料管理

1.在容器中管理資料主要有兩種方式 資料卷 data volumes 資料卷容器 data volume containers 資料卷資料卷是乙個可供乙個或多個容器使用的特殊目錄,它繞過 ufs,可以提供很多有用的特性 資料卷可以在容器之間共享和重用 對資料卷的修改會立馬生效 對資料卷的更新,不會影...