Hadoop系列 MapReduce執行模式

2021-08-28 08:00:25 字數 835 閱讀 3639

1、在eclipse中開發好mr程式(windows或linux下都可以),然後打成jar包(hadoop-mapreduce.jar),上傳到伺服器

執行命令    hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.wordcountrunner

這種方式會將這個job提交到yarn集群上去執行

2、在linux的eclipse中直接啟動runner類的main方法,這種方式可以使job執行在本地,也可以執行在yarn集群

----究竟執行在本地還是在集群,取決於乙個配置引數

mapreduce.framework.name == yarn (local)

----如果確實需要在eclipse中提交到yarn執行,必須做好以下兩個設定

將mr工程打成jar包(wc.jar),放在工程目錄下,  把/opt/soft/hadoop-2.7.3/etc/hadoop/目錄中的core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml拷貝到src下,在工程的main方法中,加入乙個配置引數   conf.set("mapreduce.job.jar","wc.jar");

3、在windows的eclipse中執行本地模式,步驟為:

----a、在windows中找乙個地方放乙份hadoop的安裝包,並且將其bin目錄配到環境變數中 

----b、根據windows平台的版本(32?64?win7?win8?),替換掉hadoop安裝包中的本地庫(bin,lib)

----c、mr程式的工程中不要有引數mapreduce.framework.name的設定

用PHP編寫Hadoop的MapReduce程式

usr local php bin php word2count array input comes from stdin standard input you can this code stdin fopen php stdin r while line fgets stdin false wr...

Hadoop2的Yarn和MapReduce2相關

1 什麼是yarn?2 yarn 和mapreduce相比,它有什麼特殊作用 yarn是乙個分布式的資源管理系統,用以提高分布式的集群環境下的資源利用率,這些資源包括記憶體 io 網路 磁碟等。其產生的原因是為了解決原mapreduce框架的不足。最初mapreduce的committer們還可以週...

七 Hadoop基本原理總結 MapReduce

一 主要組成 1 job 由客戶端向集群提交的一次計算任務。2 task 集群的最小可執行單位 乙個job將會分為多個task執行 3 resourcemanager 以下簡稱rm 管理整個集群的計算資源,主要用於為每乙個job分配計算資源 整個集群只有乙個rm 4 container 資源分配單位...