大資料之yarn體系結構

繼續寫筆記，清清腦子

hadoop1.0的執行流程（我是搬運工。。。。。這段等我弄懂了再修改）：

首先使用者程式（jobclinet）提交乙個job，job的資訊會傳送到jobtracker中，jobtracker是map-reduce框架的中心，他需要與集群中的機器定時通訊（hearbeat），需要管理那些程式應該跑在那些機器上，需要管理所有job失敗、重啟等操作。

tasktracker是map-reduce集群中每台機器都有的乙個部分，他做的事情主要是監視自己所在機器的資源情況，tasktracker同時監控當前機器的tasks運**況。tasktracker需要把這些資訊通過hearbeat傳送給jobtracker，jobtracker會蒐集這些資訊已給新提交的job分配執行在那些機器上。

jobtracker在這裡簡直就是又當爹又當媽，又要分配資源，又要管理應用程式，又要處理異常，一旦jobtracker宕機出現單點故障，整個集群就要崩掉，這對生產環節來說簡直就是災難。jobtracker承擔了太多的負擔，也占用了很大的系統資源。並且在tasktracker端，以map/reduce task的資料作為資源的表示過於簡單，沒有考慮到cpu/mem的占用情況，如果兩個大記憶體消耗的task被排程到了一塊，很容易出現oom。而且把資源強制劃分為map task slot和reduce task slot，如果當系統中只有map task或者只有reduce task的時候，會變成資源的浪費，也就是出現集群資源利用的問題。

參考文獻：這個部落格將的比較詳細了

大資料之yarn體系結構

Yarn的體系結構和執行原理

Oracle之體系結構

MySQL之體系結構

大資料之yarn體系結構

Yarn的體系結構和執行原理

Oracle之體系結構

MySQL之體系結構

相關推薦