HDFS和MR的配置和使用

①在$hadoop_home/etc/hadoop/core-site.xml檔案

fs.defaultfs hdfs://主機名:9000 hadoop.tmp.dir /opt/module/hadoop-2.7.2/data/tmp

②格式化namenode（只需要格式化一次）

命令：hadoop namenode -format

目的： ①生成/opt/module/hadoop-2.7.2/data/tmp目錄

②在目錄中生成fsimage_0000000000000000000檔案

③啟動namenode

hadoop-daemon.sh start namenode

啟動datanode

hadoop-daemon.sh start datanode

④檢視jps

通過瀏覽器訪問http://nn所在的主機名或ip:50070

如果nn和dn都在一台機器，且只有乙個dn節點，稱為偽分布式！

①修改$hadoop_home/etc/hadoop/mapred-site.xml檔案

mapreduce.framework.name yarn

②啟動yarn

配置rm到底在哪個機器啟動

修改$hadoop_home/etc/hadoop/yarn-site.xml檔案

yarn.resourcemanager.hostname 主機名yarn.nodemanager.aux-services mapreduce_shuffle

③啟動rm,nm

yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager

④檢視jps

http://rm所執行的機器主機名/ip:8088

三、提交任務

hadoop jar jar包主類名引數

輸入目錄中必須全部是檔案！

輸出目錄必須不存在！

假期進度二 HDFS和MR的使用

一分布式hdfs的安裝和啟動在 hadoop home etc hadoop core site.xml檔案 fs.defaultfs hdfs mypc 9000 hadoop.tmp.dir opt module hadoop 2.7.2 data tmp 格式化namenode 只需要格式...

Spark和MR的區別

spark把運算的中間資料存放在記憶體，迭代計算效率更高 mr的中間結果需要落地，需要儲存到磁碟，這樣必然會有磁碟io操作，影響效能 spark容錯性高，它通過彈性分布式資料集rdd來實現高效容錯，rdd是一組分布式的儲存在節點記憶體中的唯讀性質的資料集，這些集合石彈性的，某一部分丟失或者出錯，可以...

MR1和MR2的工作原理

1 客戶端向jobtracker請求乙個新的作業id 通過jobtracker的getnewjobid 方法獲取，見第2步 2 計算作業的輸入分片，將執行作業所需要的資源包括jar檔案配置檔案和計算得到的輸入分片複製到乙個以id命名的jobtracker的檔案系統中 hdfs 見第3步 3 告...

HDFS和MR的配置和使用

假期進度二 HDFS和MR的使用

Spark和MR的區別

MR1和MR2的工作原理

相關推薦