根治SAP PI XI集群故障

地點：移動資料中心

實施人員：徐建明

實施內容：

1、更換intel晶元乙太網卡，並配置驅動及offload、rss禁用項。將此網絡卡作為群集public網路。（此步驟解決上次報錯中的伺服器整合網絡卡資源pi雙機聯機的切換負載故障）

2、在上一步成功後重新整理整合網絡卡韌體至當前最新版本，由版本527重新整理到539。重新整理成功。（此步驟解決上次報錯中存在的韌體與驅動不匹配報錯資訊）

3、將pi雙機聯機、當前群集資源按照最佳配置為1號機執行：pi，mscs資源，2號機執行：pi，oracle資源。並在13日進行了如下測試：

a、mscs資源切換測試，切換和回切各5次。

b、oracle資源切換測試，切換和回切各5次。

c、pi資源切換測試，切換和回切各5次。

以上測試和頻率旨在考察更換網絡卡和韌體重新整理後的private及public（主要是public因為pi和oracle等資源主要依賴public進行佇列通訊）是否正常，是否會導致群集切換帶來的資源負載高引發的群集故障及系統報錯。測試結果：正常無報錯。

a、hacmp環境操作不熟練，亟需得到更深入的aix和hacmp培訓。

b、當年的hacmp實施沒有文件，而維護hacmp最基本的了解主備盤順序未知，亟需在未來的維護中得到規範化的小機及儲存維保管理。

d、小機有一台的網絡卡沒有工作在千兆速率上，正常千兆速率應該是亮橙色，而不是綠色。

e、emc配置aix hacmp有配置錯誤，屬於emc安裝和規劃範疇，目前無法修改必須停機重新設計，成本較大。帶來的影響是產生「貴盤」disk3，導致擴容hacmp有警告報錯，目前不影響系統，但對未來壞盤重新劃盤擴容有影響，目前擴容為disk9。亟需得到深入的儲存配置保障。

f、在配置過程中發現重啟hacmp導致小機的部分網路路由丟失，發現是沒有使用inittable方式，導致沒有永久寫入aix，此問題已經教使用者方工程師c解決。