Hadoop(一) 啟動與基本使用

2022-02-06 13:09:18 字數 2737 閱讀 4343

安裝

2.7.2-官方文件

安裝ssh

## 檢查是否有ssh

## 若返回結果有openssh-clients、openssh-server說明安裝

rpm -qa | grep ssh

## 檢查ssh是否可用

ssh localhost

啟動

檢視hadoop版本

./bin/hadoop version
執行乙個例子
$ mkdir input

$ cp etc/hadoop/*.xml input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

$ cat output/*

輸出結果

執行wordcount樣例

建立資料夾wordinput以及在資料夾下建立word.txt文字,文字內容如下:

hello

world

hello

kafka kafka

hello world

big data

bigdata

執行指令碼

./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wordinput wordoutput
得到執行結果

hadoop 配置檔案

hadoop core-default配置檔案介紹

配置etc/hadoop/core-site.xml

fs.defaultfs

hdfs://localhost:9000

配置etc/hadoop/hdfs-site.xml

dfs.replication

1

執行指令碼

./bin/hdfs namenode -format
下面兩種方式是等價的

./sbin/start-dfs.sh

## 啟動namenode程序

./sbin/hadoop-daemon.sh start namenode

## 啟動datanode程序

./sbin/hadoop-daemon.sh start datanode

namenode是什麼?datanode是什麼?為什麼必須要格式化namenode才能啟動成功?

訪問 看到dfs的面板。

配置etc/hadoop/mapred-site.xml:

mapreduce.framework.name

yarn

配置etc/hadoop/yarn-site.xml:

yarn.nodemanager.aux-services

mapreduce_shuffle

啟動 resourcemanager daemon and nodemanager daemon:

sbin/start-yarn.sh
開啟資源管理的web頁面,http://localhost:8088/

每次啟動hdfs,都必須格式化,才能啟動namenode

原因是,配置hdfs時,只配置了datanode目錄,沒有配置namenode相關資訊。預設的tmp檔案每次重新開機都會被清空,導致集群找不到namenode資訊,所以需要每次都重新格式化。

解決方法:

hadoop.tmp.dir

/usr/local/hadoop/hadoop_tmp

a base for other temporary directories.

hadoop官網-hadoop: setting up a single node cluster

hadoop官網2.7.3

《hadoop權威指南》

尚矽谷大資料之hadoop

執行第乙個mapreduce程式

mapreduce過程詳解(基於hadoop2.x架構)

Hadoop 啟動與停止命令

hadoop認證培訓 啟動與停止命令,在安裝配置了hadoop的偽分布式環境後就可以啟動hadoop了,首先需要格式化hdfs分布式檔案系統,進入hadoop的bin目錄,操作命令如下 hadoop namenode format 正常格式化hdfs的顯示截圖,如圖2 1所示。然後就可以啟動hado...

Hadoop 啟動與停止命令

hadoop認證培訓 啟動與停止命令,在安裝配置了hadoop的偽分布式環境後就可以啟動hadoop了,首先需要格式化hdfs分布式檔案系統,進入hadoop的bin目錄,操作命令如下 hadoop namenode format 然後就可以啟動hadoop,進入hadoop的bin目錄,操作命令如...

hadoop實戰 一 hadoop基本概念

hadoop wiki上定義,apache hadoop is an open source software framework used for distributed storage and processing of very large data sets 就是說hadoop是 大資料下 ...