在flink集群中提交了乙個job報錯如下大概看出是沒有datanode,這讓人很奇怪
通過jps命令在主節點看到了namenode,但是在datanode端執行jps沒有datanode
[root@devopes ~]# jps5347
taskmanagerrunner
18788
namenode
19908
jps19542
nodemanager
19367
resourcemanager
25021
quorumpeermain
5037 standalonesessionclusterentrypoint
[root@node-1 zookeeper-3.6.2由於多次格式化namenode導致。在配置檔案中儲存的是第一次格式化時儲存的namenode的id,因此就會造成datanode與namenode之間的id不一致。]# jps
16176
quorumpeermain
27042
secondarynamenode
27140
nodemanager
27326 jps
檢視從節點機器hadoop中datanode的log檔案 ,檢視最後一段
[root@node-2logs]# ll
總用量
85008
-rw-r--r-- 1 root root 55387738 9月 18 15:17 hadoop-root-datanode-node-2.log
-rw-r--r-- 1 root root 692 9月 18
15:17 hadoop-root-datanode-node-2
.out
-rw-r--r-- 1 root root 692 9月 18
15:06 hadoop-root-datanode-node-2.out.1
-rw-r--r-- 1 root root 692 9月 18
14:08 hadoop-root-datanode-node-2.out.2
-rw-r--r-- 1 root root 692 9月 18
11:53 hadoop-root-datanode-node-2.out.3
-rw-r--r-- 1 root root 692 9月 17
18:25 hadoop-root-datanode-node-2.out.4
-rw-r--r-- 1 root root 692 9月 16
14:33
hadoop-root-datanode-node-2.out.5
-rw-r--r--
1 root root 1114401 9月 18
15:28 hadoop-root-nodemanager-node-2
.log
-rw-r--r-- 1 root root 2264 9月 18
15:18 hadoop-root-nodemanager-node-2
.out
-rw-r--r-- 1 root root 2264 9月 18
15:07 hadoop-root-nodemanager-node-2.out.1
-rw-r--r-- 1 root root 2264 9月 18
14:08 hadoop-root-nodemanager-node-2.out.2
-rw-r--r-- 1 root root 2271 9月 18
11:54 hadoop-root-nodemanager-node-2.out.3
-rw-r--r-- 1 root root 2264 9月 17
18:26 hadoop-root-nodemanager-node-2.out.4
-rw-r--r-- 1 root root 2264 9月 16
14:33 hadoop-root-nodemanager-node-2.out.5
-rw-r--r-- 1 root root 19451602 9月 18
11:08 hadoop-root-secondarynamenode-node-2
.log
-rw-r--r-- 1 root root 11020011 9月 18
11:08 hadoop-root-secondarynamenode-node-2
.out
-rw-r--r-- 1 root root 0 9月 14
18:12 securityauth-root.audit
drwxr-xr-x 2 root root 6 9月 18
複製這個namenode的 clusterid
找到你的hadoop配置中的data目錄,在這個目錄下,有乙個version檔案。將version中的clusterid改成上面複製的id。
這個路徑是在hdfs-site.xml中配置的
[root@node-2 hadoop-3.1.4]# vim /home/hadoop/data/current/version如果存在多節點,其他節點也是一樣改成這個clusterid,再次重啟datanode就會出現#fri sep
1811:53:49 cst 2020
storageid=ds-d9ee4826-d408-4ccf-816b-435c9a80b015
clusterid=cid-f1c3f691-2edc-4055-b917-94aef1bafe69
ctime=0
datanodeuuid=43e7d419-9277-4a38-9729-9f82d9837d20
storagetype=data_node
layoutversion=-57
[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/stop-all.shwarning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.
stopping namenodes on [devopes]
1815:17:58 cst 2020pts/2
上stopping datanodes
1815:48:42 cst 2020pts/2
上stopping secondary namenodes [node-1]18
15:48:44 cst 2020pts/2
上stopping nodemanagers
1815:48:45 cst 2020pts/2
上stopping resourcemanager
1815:48:48 cst 2020pts/2
上[root@devopes ~]# /home/work/hadoop-3.1.4/sbin/start-all.sh
warning: hadoop_secure_dn_user has been replaced by hdfs_datanode_secure_user. using value of hadoop_secure_dn_user.
starting namenodes on [devopes]
1815:48:50 cst 2020pts/2
上starting datanodes
1815:51:03 cst 2020pts/2
上starting secondary namenodes [node-1]18
15:51:05 cst 2020pts/2
上starting resourcemanager
1815:51:09 cst 2020pts/2
上starting nodemanagers
1815:51:14 cst 2020pts/2
上[root@node-2 hadoop-3.1.4
]# jps
14577
jps12890
quorumpeermain
14237
datanode
14446 nodemanager
hadoop集群啟動後沒有啟動namenode
今天重新啟動hadoop,發現namenode節點沒有啟動。昨天好不容易將沒有出現的datanode啟動來。最後學習後是因為namenode預設在 tmp下建立臨時檔案,但關機後,tmp下文件自動刪除。再次啟動master造成檔案不匹配,所以namenode啟動失敗。在core site.xml中指...
Hadoop集群開啟後無法啟動datanode
檢視了網上的方法,大家的解決方法都是比較一致的,但是描述的不是很清楚,對我這種初學者有些不友好呀 解決方法 1.刪除集群中所有節點的hadoop解壓目錄下的data目錄以及logs目錄 刪除所有節點,我有三個節點,在scp 安全複製 之前,沒有把最初的節點的hadoop解壓目錄下的data目錄和lo...
Hadoop集群配置 啟動YARN
本篇在 hadoop集群啟動hdfs 的基礎上繼續配置 配置mapred site.xml 複製mapred site.xml.template配置模板生成mapred site.xml cp usr local hadoop hadoop 2.9.2 etc hadoop mapred site....