Hadoop Yarn環境配置

2022-07-09 07:48:09 字數 3526 閱讀 4989

抄乙個可行的hadoop yarn環境配置。用的官方的2.2.0版本。

hadoop 2.2新特性

將mapreduce框架公升級到apache yarn,yarn將map reduce工作區分為兩個:jobtracker元件:實現資源管理和任務job;計畫/監視元件:劃分到單獨應用中。 使用mapreduce的2.0,開發人員現在可以直接hadoop內部基於構建應用程式。hadoop2.2也已經在微軟widnows上支援。

yarn帶來了:

1.hdfs的高可靠性

2.hdfs snapshots快照

3.支援hdfs中的 nfsv3 檔案系統。

yarn/map reduce2.0架構圖:

其中灰綠的箭頭是mapreduce處理流程,黑色虛線是任務job提交,由客戶端提交給rm,由各個節點發出資源請求到rm獲取,當然他們也將各自的狀態反饋到到rm。

解壓到/home/hduser/yarn目錄,假設hadoop是使用者名稱。

$ tar -xvzf hadoop-2.2.0.tar.gz

$ mv hadoop-2.2.0 /home/hadoop/yarn/hadoop-2.2.0

$ cd /home/hadoop/yarn

$ sudo chown -r hadoop:hadoop hadoop-2.2.0

$ sudo chmod -r 755 hadoop-2.2.0

在~/.bashrc設定環境,將下面加入:

export hadoop_home=$home/programs/hadoop/hadoop-2.2.0

export hadoop_mapred_home=$home/programs/hadoop/hadoop-2.2.0

export hadoop_common_home=$home/programs/hadoop/hadoop-2.2.0

export hadoop_hdfs_home=$home/programs/hadoop/hadoop-2.2.0

export yarn_home=$home/programs/hadoop/hadoop-2.2.0

export hadoop_conf_dir=$home/programs/hadoop/hadoop-2.2.0/etc/hadoop

$ source ~/.bashrc

建立hadoop資料目錄:

$ mkdir -p $home/yarn/yarn_data/hdfs/namenode

$ mkdir -p $home/yarn/yarn_data/hdfs/datanode

配置:$ cd $yarn_home

$ vi etc/hadoop/yarn-site.xml

編輯 yarn-site.xml

加入下面喊在yarn-site.xml:

#etc/hadoop/yarn-site.xml .

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.aux-services.mapreduce.shuffle.class

org.apache.hadoop.mapred.shufflehandler

單個集群節點設定:

$ vi etc/hadoop/core-site.xml

加入下面內容在配置

fs.default.name

hdfs://localhost:9000

$ vi etc/hadoop/hdfs-site.xml

加入下面內容

dfs.replication

1dfs.namenode.name.dir

file:/home/hadoop/yarn/yarn_data/hdfs/namenode

dfs.datanode.data.dir

file:/home/hadoop/yarn/yarn_data/hdfs/datanode

$ vi etc/hadoop/mapred-site.xml

如果這個檔案不存在,建立,拷貝貼上下面的配置。

<?xml version="1.0"?>

mapreduce.framework.name

yarn

格式化namenode(onetime process)

$ bin/hadoop namenode -format

啟動hdfs處理和map-reduce 處理:

# hdfs(namenode & datanode)部分:

$ sbin/hadoop-daemon.sh start namenode

$ sbin/hadoop-daemon.sh start datanode

# mr(resource manager, node manager & job history server).部分:

$ sbin/yarn-daemon.sh start resourcemanager

$ sbin/yarn-daemon.sh start nodemanager

$ sbin/mr-jobhistory-daemon.sh start historyserver

確認安裝:

$ jps

# 應該輸出:

22844 jps

28711 datanode

29281 jobhistoryserver

28887 resourcemanager

29022 nodemanager

28180 namenode

執行wordcount單詞計數案例:

$ mkdir input

$ cat > input/file

this is word count example

using hadoop 2.2.0

將目錄加入hadoop:

$ bin/hadoop hdfs -copyfromlocal input /input

在hadoop_home執行wordcount案例::

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount /input /output

檢查輸出:

$ bin/hadoop dfs -cat /out/*

this 2

another 1

is 2

line 1

one 2

檢查webui,瀏覽器開啟埠:http://localhost:50070

可以在http://localhost:8088檢查應用程式的狀態:

大資料(八)Hadoop YARN配置

1 配置mapred site.xml root node01 hadoop mv mapred site.xml.template mapred site.xml root node01 hadoop vi mapred site.xml mapreduce.framework.name yarn...

hadoop yarn 入門介紹

編者按 對於業界的大資料儲存及分布式處理系統來說,hadoop 是耳熟能詳的卓越開源分布式檔案儲存及處理框架,對於 hadoop 框架的介紹在此不再累述,隨著需求的發展,yarn 框架浮出水面,依然光榮復興的 部落格給我們做了很詳細的介紹,讀者通過本文中新舊 hadoop mapreduce 框架的...

Hadoop YARN容錯機制

在現實情況中,使用者 錯誤不斷,程序崩潰,機器故障等情況均容易造成任務失敗。hadoop最主要的好處之一就是它能處理此類故障並能夠成功完成作業。1 任務失敗對於一些應用程式,不希望一旦有少數幾個任務失敗就終止執行整個作業,因為即使有任務失敗,作業的一些結果可能還是可用的。在這種情況下,可以為作業設定...