hadoop集群啟動後DataNode無法啟動問題

在flink集群中提交了乙個job報錯如下大概看出是沒有datanode，這讓人很奇怪

通過jps命令在主節點看到了namenode，但是在datanode端執行jps沒有datanode

[root@devopes ~]# jps

5347

taskmanagerrunner

18788

namenode

19908

jps19542

nodemanager

19367

resourcemanager

25021

quorumpeermain

5037 standalonesessionclusterentrypoint

[root@node-1 zookeeper-3.6.2

]# jps

16176

quorumpeermain

27042

secondarynamenode

27140

nodemanager

27326 jps

由於多次格式化namenode導致。在配置檔案中儲存的是第一次格式化時儲存的namenode的id，因此就會造成datanode與namenode之間的id不一致。

檢視從節點機器hadoop中datanode的log檔案，檢視最後一段

[root@node-2

logs]# ll

總用量

85008

-rw-r--r-- 1 root root 55387738 9月 18 15:17 hadoop-root-datanode-node-2.log

-rw-r--r-- 1 root root 692 9月 18

15:17 hadoop-root-datanode-node-2

.out

-rw-r--r-- 1 root root 692 9月 18

15:06 hadoop-root-datanode-node-2.out.1

-rw-r--r-- 1 root root 692 9月 18

14:08 hadoop-root-datanode-node-2.out.2

-rw-r--r-- 1 root root 692 9月 18

11:53 hadoop-root-datanode-node-2.out.3

-rw-r--r-- 1 root root 692 9月 17

18:25 hadoop-root-datanode-node-2.out.4

-rw-r--r-- 1 root root 692 9月 16

14:33

hadoop-root-datanode-node-2.out.5

-rw-r--r--

1 root root 1114401 9月 18

15:28 hadoop-root-nodemanager-node-2

.log

-rw-r--r-- 1 root root 2264 9月 18

15:18 hadoop-root-nodemanager-node-2

.out

-rw-r--r-- 1 root root 2264 9月 18

15:07 hadoop-root-nodemanager-node-2.out.1

-rw-r--r-- 1 root root 2264 9月 18

14:08 hadoop-root-nodemanager-node-2.out.2

-rw-r--r-- 1 root root 2271 9月 18

11:54 hadoop-root-nodemanager-node-2.out.3

-rw-r--r-- 1 root root 2264 9月 17

18:26 hadoop-root-nodemanager-node-2.out.4

-rw-r--r-- 1 root root 2264 9月 16

14:33 hadoop-root-nodemanager-node-2.out.5

-rw-r--r-- 1 root root 19451602 9月 18

11:08 hadoop-root-secondarynamenode-node-2

.log

-rw-r--r-- 1 root root 11020011 9月 18

11:08 hadoop-root-secondarynamenode-node-2

.out

-rw-r--r-- 1 root root 0 9月 14

18:12 securityauth-root.audit

drwxr-xr-x 2 root root 6 9月 18

複製這個namenode的 clusterid

找到你的hadoop配置中的data目錄，在這個目錄下，有乙個version檔案。將version中的clusterid改成上面複製的id。

這個路徑是在hdfs-site.xml中配置的

[root@node-2 hadoop-3.1.4]# vim /home/hadoop/data/current/version 
#fri sep 
1811:53:49 cst 2020
storageid=ds-d9ee4826-d408-4ccf-816b-435c9a80b015
clusterid=cid-f1c3f691-2edc-4055-b917-94aef1bafe69
ctime=0
datanodeuuid=43e7d419-9277-4a38-9729-9f82d9837d20
storagetype=data_node
layoutversion=-57

如果存在多節點，其他節點也是一樣改成這個clusterid，再次重啟datanode就會出現

[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/stop-all.sh

warning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.

stopping namenodes on [devopes]

1815:17:58 cst 2020pts/2

上stopping datanodes

1815:48:42 cst 2020pts/2

上stopping secondary namenodes [node-1]18

15:48:44 cst 2020pts/2

上stopping nodemanagers

1815:48:45 cst 2020pts/2

上stopping resourcemanager

1815:48:48 cst 2020pts/2

上[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/start-all.sh

warning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.

starting namenodes on [devopes]

1815:48:50 cst 2020pts/2

上starting datanodes

1815:51:03 cst 2020pts/2

上starting secondary namenodes [node-1]18

15:51:05 cst 2020pts/2

上starting resourcemanager

1815:51:09 cst 2020pts/2

上starting nodemanagers

1815:51:14 cst 2020pts/2

上[root@node-2 hadoop-3.1.4

]# jps

14577

jps12890

quorumpeermain

14237

datanode

14446 nodemanager

hadoop集群啟動後沒有啟動namenode

今天重新啟動hadoop，發現namenode節點沒有啟動。昨天好不容易將沒有出現的datanode啟動來。最後學習後是因為namenode預設在 tmp下建立臨時檔案，但關機後，tmp下文件自動刪除。再次啟動master造成檔案不匹配，所以namenode啟動失敗。在core site.xml中指...

Hadoop集群開啟後無法啟動datanode

檢視了網上的方法，大家的解決方法都是比較一致的，但是描述的不是很清楚，對我這種初學者有些不友好呀解決方法 1.刪除集群中所有節點的hadoop解壓目錄下的data目錄以及logs目錄刪除所有節點，我有三個節點，在scp 安全複製之前，沒有把最初的節點的hadoop解壓目錄下的data目錄和lo...

Hadoop集群配置啟動YARN

本篇在 hadoop集群啟動hdfs 的基礎上繼續配置配置mapred site.xml 複製mapred site.xml.template配置模板生成mapred site.xml cp usr local hadoop hadoop 2.9.2 etc hadoop mapred site....

hadoop集群啟動後DataNode無法啟動問題

hadoop集群啟動後沒有啟動namenode

Hadoop集群開啟後無法啟動datanode

Hadoop集群配置 啟動YARN

相關推薦

Hadoop集群配置啟動YARN