hadoop集群啟動後DataNode無法啟動問題

2022-07-18 23:36:16 字數 4517 閱讀 5526

在flink集群中提交了乙個job報錯如下大概看出是沒有datanode,這讓人很奇怪

通過jps命令在主節點看到了namenode,但是在datanode端執行jps沒有datanode

[root@devopes ~]# jps

5347

taskmanagerrunner

18788

namenode

19908

jps19542

nodemanager

19367

resourcemanager

25021

quorumpeermain

5037 standalonesessionclusterentrypoint

[root@node-1 zookeeper-3.6.2

]# jps

16176

quorumpeermain

27042

secondarynamenode

27140

nodemanager

27326 jps

由於多次格式化namenode導致。在配置檔案中儲存的是第一次格式化時儲存的namenode的id,因此就會造成datanode與namenode之間的id不一致。

檢視從節點機器hadoop中datanode的log檔案 ,檢視最後一段

[root@node-2

logs]# ll

總用量

85008

-rw-r--r-- 1 root root 55387738 9月 18 15:17 hadoop-root-datanode-node-2.log

-rw-r--r-- 1 root root 692 9月 18

15:17 hadoop-root-datanode-node-2

.out

-rw-r--r-- 1 root root 692 9月 18

15:06 hadoop-root-datanode-node-2.out.1

-rw-r--r-- 1 root root 692 9月 18

14:08 hadoop-root-datanode-node-2.out.2

-rw-r--r-- 1 root root 692 9月 18

11:53 hadoop-root-datanode-node-2.out.3

-rw-r--r-- 1 root root 692 9月 17

18:25 hadoop-root-datanode-node-2.out.4

-rw-r--r-- 1 root root 692 9月 16

14:33

hadoop-root-datanode-node-2.out.5

-rw-r--r--

1 root root 1114401 9月 18

15:28 hadoop-root-nodemanager-node-2

.log

-rw-r--r-- 1 root root 2264 9月 18

15:18 hadoop-root-nodemanager-node-2

.out

-rw-r--r-- 1 root root 2264 9月 18

15:07 hadoop-root-nodemanager-node-2.out.1

-rw-r--r-- 1 root root 2264 9月 18

14:08 hadoop-root-nodemanager-node-2.out.2

-rw-r--r-- 1 root root 2271 9月 18

11:54 hadoop-root-nodemanager-node-2.out.3

-rw-r--r-- 1 root root 2264 9月 17

18:26 hadoop-root-nodemanager-node-2.out.4

-rw-r--r-- 1 root root 2264 9月 16

14:33 hadoop-root-nodemanager-node-2.out.5

-rw-r--r-- 1 root root 19451602 9月 18

11:08 hadoop-root-secondarynamenode-node-2

.log

-rw-r--r-- 1 root root 11020011 9月 18

11:08 hadoop-root-secondarynamenode-node-2

.out

-rw-r--r-- 1 root root 0 9月 14

18:12 securityauth-root.audit

drwxr-xr-x 2 root root 6 9月 18

複製這個namenode的 clusterid

找到你的hadoop配置中的data目錄,在這個目錄下,有乙個version檔案。將version中的clusterid改成上面複製的id。

這個路徑是在hdfs-site.xml中配置的

[root@node-2 hadoop-3.1.4]# vim /home/hadoop/data/current/version 

#fri sep

1811:53:49 cst 2020

storageid=ds-d9ee4826-d408-4ccf-816b-435c9a80b015

clusterid=cid-f1c3f691-2edc-4055-b917-94aef1bafe69

ctime=0

datanodeuuid=43e7d419-9277-4a38-9729-9f82d9837d20

storagetype=data_node

layoutversion=-57

如果存在多節點,其他節點也是一樣改成這個clusterid,再次重啟datanode就會出現

[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/stop-all.sh

warning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.

stopping namenodes on [devopes]

1815:17:58 cst 2020pts/2

上stopping datanodes

1815:48:42 cst 2020pts/2

上stopping secondary namenodes [node-1]18

15:48:44 cst 2020pts/2

上stopping nodemanagers

1815:48:45 cst 2020pts/2

上stopping resourcemanager

1815:48:48 cst 2020pts/2

上[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/start-all.sh

warning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.

starting namenodes on [devopes]

1815:48:50 cst 2020pts/2

上starting datanodes

1815:51:03 cst 2020pts/2

上starting secondary namenodes [node-1]18

15:51:05 cst 2020pts/2

上starting resourcemanager

1815:51:09 cst 2020pts/2

上starting nodemanagers

1815:51:14 cst 2020pts/2

上[root@node-2 hadoop-3.1.4

]# jps

14577

jps12890

quorumpeermain

14237

datanode

14446 nodemanager

hadoop集群啟動後沒有啟動namenode

今天重新啟動hadoop,發現namenode節點沒有啟動。昨天好不容易將沒有出現的datanode啟動來。最後學習後是因為namenode預設在 tmp下建立臨時檔案,但關機後,tmp下文件自動刪除。再次啟動master造成檔案不匹配,所以namenode啟動失敗。在core site.xml中指...

Hadoop集群開啟後無法啟動datanode

檢視了網上的方法,大家的解決方法都是比較一致的,但是描述的不是很清楚,對我這種初學者有些不友好呀 解決方法 1.刪除集群中所有節點的hadoop解壓目錄下的data目錄以及logs目錄 刪除所有節點,我有三個節點,在scp 安全複製 之前,沒有把最初的節點的hadoop解壓目錄下的data目錄和lo...

Hadoop集群配置 啟動YARN

本篇在 hadoop集群啟動hdfs 的基礎上繼續配置 配置mapred site.xml 複製mapred site.xml.template配置模板生成mapred site.xml cp usr local hadoop hadoop 2.9.2 etc hadoop mapred site....