大資料Hadoop學習六

2021-08-02 17:03:13 字數 1481 閱讀 6236

1、hadoop的改進

hadoop 1.0到2.0的改進分為mapreduce和hdfs架構的演進。另一方面,不斷加入kafka,spark,pig,tez等新的元件。

hadoop2.0 針對hdfs涉及了hdfs ha,提供名稱節點的熱備份;

設計了hdfs federation管理多個命名空間;

涉及了新的資源管理框架year。

2、hdfs ha解決單點故障問題

ha集群設定兩個名稱節點,active和standby狀態,一旦活躍狀態出現故障,可以切換到到standby備用節點。zookeeper確保只有乙個名稱節點對外服務,名稱節點維護對映資訊,資料節點同時向兩個名稱節點匯報資訊。

名稱節點共享儲存系統來同步狀態。

3、hdfs federation

因為hdfs 2.0中,名稱節點的集群,使得hdfs的命名空間可以水平擴充套件,這些名稱節點分別進行各自的命名空間和塊的管理,相互之間是聯盟federation的關係,不需要彼此協調。hdfs federation中,所有的名稱節點共享底層資料節點,資料節點向所有的名稱節點匯報。

屬於同乙個命名空間的塊構成了乙個塊池。

4、hdfs federation的訪問

對於多個命名空間,可以採用客戶端掛載表方式進行資料的共享訪問。客戶端訪問不同的掛載點來訪問不同的命名空間。

federation使得hdfs集群可以更方便的擴充套件,並且名稱節點的管理更高效,提供良好的隔離性;但是不能解決單點故障問題。

5、yarn框架

mapreduce 1.0缺陷:

1)單點故障;

2)jobtracker任務過重,任務多時記憶體開銷大,上線4000節點,多了出現故障概率大;

3)容易出現記憶體溢位,分配資源只考慮mapreduce任務數,不考慮cpu和記憶體

4)資源劃分不合理,強制劃分slot.

6、yarn體系結構

容器container作為動態分配的資源單位,封裝了一定的cpu、記憶體、磁碟等資源,從而限定每個應用程式的使用量;

排程器設計為可插拔元件,yarn不僅自身提供資源排程器,也允許使用者自定義;

與nodemanager保持通訊,進行應用程式的啟動、執行、監控和停止,監控申請到的資源使用情況,對所有任務的執行進度、任務狀態進行監控,並在任務失敗時重新執行;

定時向resourcemanager傳送訊息,報告資源的使用情況和應用的進度資訊;

作業完成時,向resourcemanager登出容器,**資源。

nodemanager作用:

nodemanager是駐留在yarn集群中每個節點上的**,主要負責:

容器生命週期管理。 

監控每個容器的資源使用情況;

跟蹤節點的健康狀態

心跳方式與resourcemanager保持通訊;

向resourcemanager匯報作業的資源只用情況和每個容器的狀態

7、yarn工作流程

6)在容器中啟動任務

8、yran的目的是乙個集群多個框架

學習大資料hadoop的第六天

小練習 利用wordcount計數 操作要求 step1 在home目錄下建立檔案wordcount.txt,內容如下 hello zww hello ljr hello zzz hello jjj hello rrr hello www hello ljr hello zww hello lir ...

大資料 Hadoop學習筆記10

ipc程序間通訊 inter process communication rpc遠端過程呼叫 remote procedure call 1.實現原理 client 1.client.class,且遵循versionprotocal協議 2.通過 和伺服器端打交道 server 1.server.c...

Hadoop大資料開發框架學習

hadoop是apache發布的開源分布式基礎架構 他的兩個核心是 兩部分就組成了hadoop的分布式基礎架構 hdfs作為hadoop為儲存海量資料,自然有著與傳統檔案系統有著不同的結構,它是以linux檔案系統的基礎的架構,構建裡一套分布式檔案系統,它是由乙個namenode和多台datanod...