參考文章:
azkaban是乙個開源的
任務排程系統,用於負責任務的排程執行(如資料倉儲排程),用以替代
linux
中的crontab
,可以用來解決多個
hadoop
(或spark
等)離線計算任務之間的依賴關係
問題。 • 三
部分 • relational database(
azkaban的使用(
支援單/
多工工作流)
1.建立
有依賴關係的多個
job描述 #
test6
type=command
command=echo
"hello world 6"
dependencies=test3,test5 當
test6
的job
依賴test3,test5
兩個job
完成後再執行
2.建立
project
並將所有
job資源
檔案放到
乙個zip包中
3.上傳至azkaban
中,啟動工作流 •
azkaban
流程名稱以最後乙個沒有依賴的
job定義的
• 任務可設定序列還是並行進行 •
在任務設定時對
concurrent
項設定job
的串並行 •
任務執**況可以設定報錯郵件提醒
azkaban的安裝使用
主要是排程方面的功能,有些工具也支援資源的管理,比如zeus和yarn類似 基於時間條件觸發程式執行,系統時間到了就跑 基於其他程式的執行結果進行排程執行,前面的任務跑完了,我開始跑 處理乙個資料的時候,只有資料存在的時候,才執行任務。crontab e command 分 時 日 月 周 00 1...
Azkaban使用簡單筆記
官方文件 azkaban主要的組成 1.關係型資料庫 mysql 2.azkabanwebserver 3.azkabanexcutorserver 使用mysql儲存狀態,azkabanwebserver和azkabanexcutorserver訪問資料庫。azkabanwebserver主要管理...
Datax 與 Azkaban 實現資料抽取與排程
1.什麼是datax datax 是阿里巴巴集團內被廣泛使用的離線資料同步工具 平台,實現包括 mysql oracle hdfs hive oceanbase hbase ots odps 等各種異構資料來源之間高效的資料同步功能。datax採用了框架 外掛程式 的模式,目前已開源,託管在gith...