地點:移動資料中心
實施人員:徐建明
實施內容:
1、更換intel晶元乙太網卡,並配置驅動及offload、rss禁用項。將此網絡卡作為群集public網路。(此步驟解決上次報錯中的伺服器整合網絡卡資源pi雙機聯機的切換負載故障)
2、在上一步成功後重新整理整合網絡卡韌體至當前最新版本,由版本527重新整理到539。重新整理成功。(此步驟解決上次報錯中存在的韌體與驅動不匹配報錯資訊)
3、將pi雙機聯機、當前群集資源按照最佳配置為1號機執行:pi,mscs資源,2號機執行:pi,oracle資源。並在13日進行了如下測試:
a、mscs資源切換測試,切換和回切各5次。
b、oracle資源切換測試,切換和回切各5次。
c、pi資源切換測試,切換和回切各5次。
以上測試和頻率旨在考察更換網絡卡和韌體重新整理後的private及public(主要是public因為pi和oracle等資源主要依賴public進行佇列通訊)是否正常,是否會導致群集切換帶來的資源負載高引發的群集故障及系統報錯。測試結果:正常無報錯。
a、hacmp環境操作不熟練,亟需得到更深入的aix和hacmp培訓。
b、當年的hacmp實施沒有文件,而維護hacmp最基本的了解主備盤順序未知,亟需在未來的維護中得到規範化的小機及儲存維保管理。
d、小機有一台的網絡卡沒有工作在千兆速率上,正常千兆速率應該是亮橙色,而不是綠色。
e、emc配置aix hacmp有配置錯誤,屬於emc安裝和規劃範疇,目前無法修改必須停機重新設計,成本較大。帶來的影響是產生「貴盤」disk3,導致擴容hacmp有警告報錯,目前不影響系統,但對未來壞盤重新劃盤擴容有影響,目前擴容為disk9。亟需得到深入的儲存配置保障。
f、在配置過程中發現重啟hacmp導致小機的部分網路路由丟失,發現是沒有使用inittable方式,導致沒有永久寫入aix,此問題已經教使用者方工程師c解決。
Redis Cluster集群故障轉移
1.故障發現 1.1 主觀下線,redis集群通過gossip的ping,pong訊息來互相通訊,比如a節點向b節點傳送ping,如果在 cluster node timeout時間內一直失敗,則節點a會認為b是主觀下線,同時將此狀態資訊在集群內廣播 1.2 客觀下線,當半數以上的持有槽的主節點都標...
ceph 集群故障恢復
集群規劃配置 master1 172.16.230.21 master2 172.16.230.22 master3 172.16.230.23 node1 172.16.230.26 node2 172.16.230.27 node3 172.16.23028 一 模擬monitor 宕機狀態 2...
Hadoop集群namenode故障模擬
在主namenode發生故障時 假設沒有及時備份資料 可以從secondarynamenode恢復資料。方法一 將secondarynamenode中資料拷貝到namenode儲存資料的目錄 方法二 使用 importcheckpoint選項啟動namenode守護程序,從而將secondaryna...