1、啟動flume將指定檔案【檔案內容每一分鐘增加若干行,模擬nginx日誌】自動同步到hdfs。
要求:2、配置mr任務並依賴flume任務
要求:3、通過sqoop命令列顯示mysql裡面有多少資料表;通過azkaban配置sqoop任務,將product、member、order三表同步到hive表
要求:4、hive相關排程
5、配置sqoop任務將hive任務結果匯入mysql資料庫
6、基於你現有知識,設計自己的框架
框架適用方需求如下:【前2個需求通過寫shell指令碼暴露通用引數】
大資料分析框架
spark 是在 hadoop 的基礎上進行了一些架構上的改良。spark 與hadoop 最大的不同點在於,hadoop 使用硬碟來儲存資料,而spark 使用記憶體來儲存資料,因此 spark 可以提供超過 ha?doop 100 倍的運算速度。由於記憶體斷電後會丟失資料,spark不能用於處理...
大資料學習 資源排程框架 YARN
伺服器集群資源排程管理和mapreduce執行過程耦合在一起帶來的問題 不同計算框架可以共享同乙個hdfs集群上的資料,享受整體的資源排程 1,client提交作業請求 6,container啟動後,執行對應的任務 1 mapred site.xml mapreduce.framework.name...
什麼是Oozie 大資料任務排程框架
oozie的工作流必須是乙個有向無環圖,實際上oozie就相當於hadoop的乙個客戶端,當使用者需要執行多個關聯的mr任務時,只需要將mr執行順序寫入workflow.xml,然後使用oozie提交本次任務,oozie會託管此任務流。注意 使用oozie之前必須先啟動hdfs,yarn和jobhi...