Vsphere集群維護經驗

2021-08-21 14:11:33 字數 474 閱讀 3294

結構簡述:

用十台伺服器做的vsphere的集群,其中使用了超融合將硬碟組合。三個千兆網口,乙個為管理網口,另外兩個為業務網口,兩個萬兆光口,做磁碟交換。

問題再現:

有一台伺服器下線,因為主機板有問題。當這台伺服器修好並重新上線之後,有檢測出另外一台伺服器的主機板也有問題。從管理端將伺服器置為維護模式後大部分虛擬機器遷移失敗,登陸伺服器的管理介面,下線虛擬機器並關閉伺服器。

後vcenter出現錯誤,vsphere管理端登陸異常,出現了部分伺服器下線,時間不長後,所有伺服器在vcenter中的狀態均為下線,單獨登陸每台伺服器可以檢視出,伺服器中的業務運轉正常。

通過物理機登陸系統,發現明顯卡頓,所以機器均為此狀態。通過ssh連線後檢視處理器的負載情況,發現負載情況很低。

解決方法:

集群的問題出現是從第二台,等待伺服器維護完成之後上線,集群系統恢復正常,卡頓消失,其中的業務遷移失敗是因為管理網路中的vmotion並沒有開啟的原因。

kafka集群維護

kafka集群基本資訊實時檢視和修改 集群資訊實時檢視 topic工具 kafka topics,sh list zookeeper x.x.x.x kafka topics.sh describe zookeeper x.x.x.x topic topic name 集群資訊實時修改 topic工...

Vsphere集群報主機隔離故障

收到告警工單,vc報主機32與某集群中的master主機丟失聯絡,處於不同的網路分割槽 檢視vc事件臺,發現告警如下 故障集群有4臺主機,分別為2,3,4,5主機。1 網路隔離 即集群中master主機可以通過共享儲存檢查到某從屬主機存活,但是無法通過管理網路進行ping監測,且從屬主機無法ping...

oracle rac集群維護命令

oracle rac資料啟動 用grid使用者執行 srvctl status database d btgd 檢視資料庫狀態,狀態為open正常 srvctl start database d btgd 啟動資料庫,兩個節點同時啟動 srvctl stop database d btgd 關閉資料...