①在$hadoop_home/etc/hadoop/core-site.xml
檔案
fs.defaultfs
hdfs://主機名:9000
hadoop.tmp.dir
/opt/module/hadoop-2.7.2/data/tmp
②格式化namenode(只需要格式化一次)
命令:hadoop namenode -format
目的: ①生成/opt/module/hadoop-2.7.2/data/tmp
目錄
②在目錄中生成fsimage_0000000000000000000檔案
③啟動namenode
hadoop-daemon.sh start namenode
啟動datanode
hadoop-daemon.sh start datanode
④檢視jps
通過瀏覽器訪問http://nn所在的主機名或ip:50070
如果nn和dn都在一台機器,且只有乙個dn節點,稱為偽分布式
!
①修改$hadoop_home/etc/hadoop/mapred-site.xml
檔案
mapreduce.framework.name
yarn
②啟動yarn
配置rm到底在哪個機器啟動
修改$hadoop_home/etc/hadoop/yarn-site.xml
檔案
yarn.resourcemanager.hostname
主機名yarn.nodemanager.aux-services
mapreduce_shuffle
③啟動rm,nm
yarn-daemon.sh start resourcemanager
yarn-daemon.sh start nodemanager
④檢視jps
http://rm所執行的機器主機名/ip:8088
三、提交任務
hadoop jar jar包 主類名 引數
輸入目錄中必須全部是檔案!
輸出目錄必須不存在!
假期進度二 HDFS和MR的使用
一 分布式hdfs的安裝和啟動 在 hadoop home etc hadoop core site.xml檔案 fs.defaultfs hdfs mypc 9000 hadoop.tmp.dir opt module hadoop 2.7.2 data tmp 格式化namenode 只需要格式...
Spark和MR的區別
spark把運算的中間資料存放在記憶體,迭代計算效率更高 mr的中間結果需要落地,需要儲存到磁碟,這樣必然會有磁碟io操作,影響效能 spark容錯性高,它通過彈性分布式資料集rdd來實現高效容錯,rdd是一組分布式的儲存在節點記憶體中的唯讀性質的資料集,這些集合石彈性的,某一部分丟失或者出錯,可以...
MR1和MR2的工作原理
1 客戶端向jobtracker請求乙個新的作業id 通過jobtracker的getnewjobid 方法獲取,見第2步 2 計算作業的輸入分片,將執行作業所需要的資源 包括jar檔案 配置檔案和計算得到的輸入分片 複製到乙個以id命名的jobtracker的檔案系統中 hdfs 見第3步 3 告...