HDFS和MR的配置和使用

2022-06-05 20:06:08 字數 1333 閱讀 3474

①在$hadoop_home/etc/hadoop/core-site.xml檔案

fs.defaultfs

hdfs://主機名:9000

hadoop.tmp.dir

/opt/module/hadoop-2.7.2/data/tmp

②格式化namenode(只需要格式化一次)

命令:hadoop namenode -format

目的: ①生成/opt/module/hadoop-2.7.2/data/tmp目錄

②在目錄中生成fsimage_0000000000000000000檔案

③啟動namenode

hadoop-daemon.sh start namenode

啟動datanode

hadoop-daemon.sh start datanode

④檢視jps

通過瀏覽器訪問http://nn所在的主機名或ip:50070

如果nn和dn都在一台機器,且只有乙個dn節點,稱為偽分布式

①修改$hadoop_home/etc/hadoop/mapred-site.xml檔案

mapreduce.framework.name

yarn

②啟動yarn

配置rm到底在哪個機器啟動

修改$hadoop_home/etc/hadoop/yarn-site.xml檔案

yarn.resourcemanager.hostname

主機名yarn.nodemanager.aux-services

mapreduce_shuffle

③啟動rm,nm

yarn-daemon.sh start resourcemanager

yarn-daemon.sh start nodemanager

④檢視jps

http://rm所執行的機器主機名/ip:8088

三、提交任務

hadoop jar jar包 主類名 引數

輸入目錄中必須全部是檔案!

輸出目錄必須不存在!

假期進度二 HDFS和MR的使用

一 分布式hdfs的安裝和啟動 在 hadoop home etc hadoop core site.xml檔案 fs.defaultfs hdfs mypc 9000 hadoop.tmp.dir opt module hadoop 2.7.2 data tmp 格式化namenode 只需要格式...

Spark和MR的區別

spark把運算的中間資料存放在記憶體,迭代計算效率更高 mr的中間結果需要落地,需要儲存到磁碟,這樣必然會有磁碟io操作,影響效能 spark容錯性高,它通過彈性分布式資料集rdd來實現高效容錯,rdd是一組分布式的儲存在節點記憶體中的唯讀性質的資料集,這些集合石彈性的,某一部分丟失或者出錯,可以...

MR1和MR2的工作原理

1 客戶端向jobtracker請求乙個新的作業id 通過jobtracker的getnewjobid 方法獲取,見第2步 2 計算作業的輸入分片,將執行作業所需要的資源 包括jar檔案 配置檔案和計算得到的輸入分片 複製到乙個以id命名的jobtracker的檔案系統中 hdfs 見第3步 3 告...