首先從官網查了一下支援的資料來源:
hive sqoop falcon storm
普及一下apache falcon是乙個開源的hadoop資料生命週期管理框架, 它提供了資料來源 (feed) 的管理服務,如生命週期管理,備份,存檔到雲等,通過web ui可以很容易地配置這些預定義的策略, 能夠大大簡化hadoop集群的資料流管理
讀取配置載入類atlas-plugin-classloader-1.1.0.jar
atlas_start.py 載入一些基礎的type,(基本都是寫死到**層面的)原始碼(hivedatatypes)
atlas安裝並啟動完之後,這個時候系統還是空的,atlas是 通過hook去監聽你的hive語句,所以一般我們會通過atlas的import_hive.sh先把hive裡的表,資料庫等資訊全部匯入到atlas, 之後如果表有操作,通過接收kafka的資料再進行處理
以hive為例說明:
hive 在使用 hive hook 的 hive 命令執行上支援偵聽器。 這用於在 atlas 中使用 org.apache.atlas.hive.model.hivedatamodelgenerator 中定義的模型新增/更新/刪除實體。 hive hook 將請求提交給執行緒池執行器,以避免阻塞命令執行。 執行緒將實體作為訊息提交給通知伺服器,並且伺服器讀取這些訊息並註冊實體,裡面有各種配置資訊,請檢視
以欄位血緣關係為例說明
columnlineageprocess 型別是 process 的子類,這將輸出列與一組輸入列或輸入表相關聯
lineage 還捕獲 dependency 的型別:當前的值是 ******,expression,script
******依賴: 意味著輸出列具有與輸入相同的值
expression依賴: 意味著輸出列被輸入列上的執行時中的一些表示式(例如hive sql表示式)轉換。
script依賴: 表示輸出列由使用者提供的指令碼轉換。
在 expression 依賴的情況下,表示式屬性包含字串形式的表示式
由於 process 鏈結輸入和輸出 dataset,我們使 column 成為 dataset 的子類
limitations(規則)以下 hive 操作由 hive hook 當前捕獲
create database
create table/view, create table as select
load, import, export
dmls (insert)
alter database
alter table (skewed table information, stored as, protection is not supported)
alter view
usb2 0學習筆記第四章
usb2.0學習筆記第四章 usb共享互連?拓撲結構最多七層,第一層是host和根hub 主機 第七層只能是usb裝置,不能是hub和復合裝置 hub和主機控制器間可以高速傳送資料,避免了高速裝置的傳輸被低速全速裝置的傳輸影響 看了後面的幾章就會知道高速序列通訊一般都會採用cdr clok data...
第四計 以逸待勞
困敵之勢,不以戰 損剛益柔。困敵之勢 迫使敵入處於圍頓的境地。損剛益柔 語出 易經 損 剛 柔 是兩個相對的事物現象,在一定的條件下相對的兩方有可相互轉化。損 卦名。本卦為雙卦相疊 兌下艮上 上卦為艮,艮為山,下卦為兌,兌為澤。上山下澤,意為大澤浸蝕山根之象,也就說有水浸潤著山,損著山,故卦名叫 損...
程式設計第四單元
程式設計第4單元 迴圈結構程式設計 陳嘉琦 2019215268 數學 3 第1課while語句 1.while語句 while語句格式 while 表示式 迴圈體 while語句含義 先計算表示式 一般稱為迴圈條件 的值,當表示式的值為真 迴圈條件成立 時,去執行一次迴圈體。執行完一次迴圈體後,w...