大資料 Hadoop Yarn詳細介紹

1、分布式儲存

2、分布式計算

1、分布式儲存 hdfs

名稱節點namenode:檔案管理

資料節點datanode:檔案儲存

2、分布式計算 mapreduce

map:任務的分解

reduce:結果的彙總

hdfs分布式檔案系統(hadoop distributed file system)：

hdfs是乙個高度容錯性的分布式檔案系統，能夠提供高吞吐量的資料訪問，非常適合大規模資料集上的應用。

namenode：可以看作是分布式檔案系統中的管理者，儲存檔案系統的meta-data,主要負責管理檔案系統的命名空間，集群配置資訊，儲存塊的複製。

datanode:是檔案儲存的基本單元，它儲存檔案塊在本地檔案系統中，儲存了檔案塊的meta-data,同時週期性的傳送所有存在的檔案塊的報告給namenode。

hdfs具體操作：

檔案寫入：

1、client向namenode發起檔案寫入的請求

2、namenode根據檔案大小和檔案塊配置情況，返回給client它所管理部分datanode的資訊

3、client將檔案劃分為多個檔案塊，根據detanode的位址資訊，按順序寫入到每乙個datanode塊中

檔案讀取：

1.client向namenode發起檔案讀取的請求。

2.namenode返回檔案儲存的datanode的資訊。

3.client讀取檔案資訊

mapreduce是一種程式設計模型，用於大規模資料集的並行運算。

map(對映)和reduce(化簡)，採用分而治之思想，先把任務分發到集群的多個節點上，平行計算，然後再把計算結果合併，從而得到最終計算結果。多節點計算，所涉及的任務排程、負載均衡、容錯處理等，都由mapreduce框架完成，不需要程式設計人員關心這些內容。

分兩個階段：map階段---程式maptask

reduce階段---程式reducetask

map階段：將每一行文字資料變成《單詞，1>這樣的key-value資料

reduce階段：將相同單詞的一組key-value資料進行聚合，累加所有的key-value

注意：mapreduce程式中

map階段的進、出資料

reduce階段的進、出資料

資料的型別應該是實現了hadoop序列化的型別，如：

string -> text

integer -> intwritable

long -> longwritable

mapreduce程式執行在很多機器上，而且先執行map task，當眾多的map task都處理完資料後，還需要啟動眾多的reduce task，這個過程如果是使用者自己手動排程不現實，需要有自動化的排程平台---hadoop中就為mapreduce之類的分布式運算開發了乙個自動化排程平台—yarn

yarn是乙個分布式程式的執行排程平台，yarn有兩個核心角色

1、resourcemanager

接受使用者提交的分布式計算程式，並為其劃分資源，管理、監控各個nodemanager上的資源，以便於負載均衡

2、nodemanager

管理它所在的機器的執行資源(cpu+記憶體)

負責接收resourcemanager分配的任務，建立容器，**資源

yarn的安裝

nodemanager在物理上應該跟data node部署在一起

resourcemanager在物理上應該部署在一台專門的機器上

1、修改配置檔案：yarn-site.xml

2、scp這個檔案到其他的節點上

3、啟動yarn集群：start-yarn.sh(只能在resourcemanager上執行)

4、用jps命令檢查yarn的程序，用web瀏覽器檢視yarn的web控制台

大資料 Hadoop Yarn詳細介紹

大資料（八）Hadoop YARN配置

Hadoop YARN的發展史與詳細解析

Hadoop YARN的發展史與詳細解析

大資料 Hadoop Yarn詳細介紹

大資料（八）Hadoop YARN配置

Hadoop YARN的發展史與詳細解析

Hadoop YARN的發展史與詳細解析

相關推薦