流式計算框架:storm
記憶體計算框架:spark
離線計算框架:mapreduce
僅適合離線批處理
具有很好的容錯性和擴充套件性
適合簡單的批處理任務
缺點明顯
啟動開銷大、過多使用磁碟導致效率低下等
dag計算框架:apache tez
dag計算:多個作業之間存在資料依賴關係,並形成乙個依賴關係有向圖( directed acyclic graph ),該圖的計算稱為「dag計算」
和mapreduce相比
tez應用場景
直接編寫應用程式
tez提供了一套通用程式設計介面
適合編寫有依賴關係的作業
優化pig、hive等引擎
下一代hive:stinger
好處1:避免查詢語句轉換成過多的mapreduce作業後產生大量不必要的網路和磁碟io
好處2:更加智慧型的任務處理引擎
流式計算框架:storm
storm on yarn(和其他如mapreduce、tez、spartk等都不同,其他計算框架的client)
記憶體計算框架:spark
已經形成了自己的生態系統
大資料學習 Hadoop初識三Yarn模式
閱讀原文 摘要 我們都知道在如今的hadoop中主要有三個重要的執行管理器。乙個hdfs,乙個mapreduce,還有就是我們今天要看的 yarn。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn這個模式管理的。2.0以前的hadoop 在2.0以前的hadoop中是沒有yarn...
大資料hadoop之yarn
yarn是乙個資源排程平台負責為運算程式提供伺服器運算資源,相當於乙個分布式作業系統平台,mr等程式在上面執行。mr程式把任務提交到客戶端所在節點 rm將使用者請求初始化乙個task進入自己的任務排程佇列,傳送task任務到nm am向rm申請執行maptask容器 rm向nm分配maptask,n...
大資料之yarn體系結構
繼續寫筆記,清清腦子 hadoop1.0的執行流程 我是搬運工。這段等我弄懂了再修改 首先使用者程式 jobclinet 提交乙個job,job的資訊會傳送到jobtracker中,jobtracker是map reduce框架的中心,他需要與集群中的機器定時通訊 hearbeat 需要管理那些程式...