關於YARN 大資料分析學習筆記4

2021-09-25 13:20:59 字數 1244 閱讀 2519

yarn 全稱(yet anthor resource negotiator)是hadoop 的集群資源管理系統,yarn提供請求和使用集群資源的api

yarn的核心思想是將資源管理和job的排程/監控進行分離

mapreduce1和yarn的比較

mapreduce1

yarn

jobtracker

tasktracker

節點管理器

slot

容器可擴充套件瓶頸:節點4000,任務數40000

可擴充套件瓶頸:節點10000,任務數100000

jobtracker中有大量快速變化的複雜狀態

高可用—

多租戶靜態分配slot(mapslot 和 reduceslot)

資源池,精細化管理

yarn 通過兩類長期執行的守護程序提供自己的核心服務

(1):管理集群上資源使用的資源管理器(resource manager)

resourcemanager是yarn的主程序,其唯一功能是仲裁hadoop集群上的資源,響應客戶端建立容器請求,排程程式根據特定的多租戶規則確定何人可以在何時何地建立容器,正如hadoop 1.0版本,resourcemanager排程程式是可選擇的,這意味著你可以選擇最適合的排程程式,而實際建立的容器被委託給nodemanager。

(2):執行在集群中所有節點上且能夠啟動和監控容器的節點管理器(node manager)

例如:mapreduce會對應乙個、spark會對應乙個。它主要負責應用程式的管理,為應用程式向rm申請資源(core、memory),將資源分配給內部的task。am需要與nm通訊,以此來啟動或停止task。task是執行在container裡面的,所以am也是執行在container裡面。

(2) container, 封裝了cpu、memory等資源的乙個容器,相當於是乙個任務執行環境的抽象。

執行過程:

(1)client向yarn提交job,找resourcemanager分配資源

大資料分析複習筆記

資料探勘 有效性 可用性 出乎意料 可理解性 假設有圖 其鄰接矩陣 m為 帶入公式迭代,結果為 最終,rm 1 而 ry ra 0 這從漫步者的角度很好理解,在經過一段時間之後,漫步者到達了 m 節點,然而 m 節點只有指向自己的鏈結,然後就只能一直停留在 m,所以最後的概率一定是1,而其他兩個節點...

資料分析學習筆記

資料分析的常規步驟 1.確定問題 2.分解問題 3.評估問題 4.制定相應的決策 用一句話概括就是 現有的資料能否解決現在的問題,分析問題的瓶頸所在,評估分析的方式方法,找到最合理的資料分析方案進行實施。資料分析的模型沒有統一的模型,每乙個公司都有自己的業務線跟使用者群裡,使用者的屬性不同,行為軌跡...

資料分析學習筆記

row number over partition by col1 col2 order by col1 asc desc col2 asc desc 函式說明 可以用於開窗,排序,計數,返回當前視窗的排序值。引數說明 partition by col1 col2.指定開視窗的列。order by ...