(1)mapreduce程式是被提交給localjobrunner在本地以單程序的形式執行
(2)而處理的資料及輸出結果可以在本地檔案系統,也可以在hdfs上
(3)怎樣實現本地執行?寫乙個程式,不要帶集群的配置檔案
本質是程式的conf中是否有mapreduce.framework.name=local以及yarn.resourcemanager.hostname=local引數
(4)本地模式非常便於進行業務邏輯的debug,只要在eclipse中打斷點即可
本地模式執行**設定
configuration.
set(
"mapreduce.framework.name"
,"local");
configuration.
set(
"yarn.resourcemanager.hostname"
,"local");
textinputformat.
addinputpath
(job,
newpath
("file:///f:\\傳智播客大資料離線階段課程資料\\3、大資料離線第三天\\wordcount\\input"))
;textoutputformat.
setoutputpath
(job,
newpath
("file:///f:\\傳智播客大資料離線階段課程資料\\3、大資料離線第三天\\wordcount\\output"))
;
(1)將mapreduce程式提交給yarn集群,分發到很多的節點上併發執行
(2)處理的資料和輸出結果應該位於hdfs檔案系統
(3)提交集群的實現步驟:
將程式打成jar包,然後在集群的任意乙個節點上用hadoop命令啟動
hadoop jar hadoop_hdfs_operate-1.0-snapshot.jar cn.itcast.hdfs.demo1.jobmain
MapReduce幾種執行模式
1 在eclipse中開發好mr程式 windows或linux下都可以 然後打成jar包 wc.jar 上傳到伺服器 執行命令 hadoop jar wc.jar cn.itheima.hadoop.mainclassrunner 2 在linux的eclipse中直接啟動runner類的main...
MapReduce程式執行過程
input 讀取程式輸入 預設 讀hdfs上檔案,將檔案拆分為分片split 500m 4個block 4個split 將每個split中的每一行轉換為乙個keyvalue key 行的偏移量 value 行的內容 map 將任務進行拆分嗎,啟動多個map task 來處理每個分片 預設 乙個分片對...
MapReduce程式的幾種提交執行模式
本地模型執行 1 在windows的eclipse裡面直接執行main方法,就會將job提交給本地執行器localjobrunner執行 輸入輸出資料可以放在本地路徑下 c wc srcdata 輸入輸出資料也可以放在hdfs中 hdfs weekend110 9000 wc srcdata 2 在...