Hadoop運維記錄系列二十三

最近做集群機房遷移，在舊機房和新機房之間接了根專線，做集群不停機搬遷，也就是跨機房，同時要新加百多台伺服器，遇到幾個問題，記錄一下。

舊集群的機器是centos 6, 新機房加的機器是centos 7。

一、丟包問題

在跨機房的時候，datanode顯示很多slow blockreceiver的日誌

warn  org.apache.hadoop.hdfs.server.datanode.datanode: slow blockreceiver write packet to mirror took 630ms(threshold=300ms)

經查，這個報錯的主要原因出在網絡卡的mtu設定上，hadoop建議將網絡卡mtu值從1500設定為9000，以支援接收jumbo frame。調整mtu值後，偶爾還會有幾條，但頻率小多了。而且我記得這個得交換機一起配合修改，光改伺服器不好使。

二、centos7 執行df命令掛起，無法退出

在cent7下面執行df命令會死在那裡，用ctrl-c也沒法退出。由於我們的nodemanager健康檢查指令碼裡面包含df命令，所以，nm的健康檢查會卡死，最後把所有cpu全吃光，導致計算任務無法正常進行。使用kill命令也無法殺掉僵死的df程序，使用strace跟蹤df命令也無法退出，必須用kill -9 殺掉strace才可以。

stat("/sys/fs/cgroup/memory", ) = 0
stat("/sys/kernel/config", ) = 0
stat("/", ) = 0
stat("/proc/sys/fs/binfmt_misc",

最後df就是卡死在 binfmt_misc 這了。

經查，這是centos7 systemd的乙個bug，1534701，我們觸發這個bug的原因應該是在執行hadoop安裝的時候，作為依賴更新了systemd相關的元件，但是沒有進行重啟，新的systemd沒生效，所以重啟之後，故障解決。

三、專線流量大，導致跑任務慢

使用tcpdump及nmap綜合分析，發現大量的arp連線，應是b類位址沒有做vlan路由，跨機房集群相互之間做arp通告引發廣播風暴。後續由運維重新規劃vlan解決。

等跨機房遷移弄完了，可以專門寫一寫。

Hadoop運維記錄系列二十三

Hadoop運維記錄系列二十二

Hadoop運維記錄系列十七

Hadoop運維記錄系列九

Hadoop運維記錄系列 二十三

Hadoop運維記錄系列 二十二

Hadoop運維記錄系列 十七

Hadoop運維記錄系列 九

相關推薦

Hadoop運維記錄系列二十三

Hadoop運維記錄系列二十二

Hadoop運維記錄系列十七

Hadoop運維記錄系列九