a機、b機hacmp不能相互接管,一般主要表現在兩個方面:
1、 雙機的hacmp引數配置、某些系統引數的配置以及雙機應用環境設定是否符合實際需求;
2、 接管時,占有資源的機器是否能合理地釋放資源
hacmp為我們測試高可用性環境提供了乙個很有用的工具, 這就是停止hacmp的一種方式-----graceful
with takeover(正常關閉並讓另一方接管),要測試雙機,可以按照如下面步驟進行:
一、隔離應用測試
1、 檢查雙機捲組狀態(lsvg -o),檔案系統情況(df),網絡卡狀態及ip(netstat -in),/etc/hosts表;
2、 隔離應用。為了不改變原有hacmp配置,可將應用指令碼中的命令注釋掉,或者將這些應用指令碼的執
行許可權取消掉(chmod a-x filename),或將原有檔案備份,將原有檔案清空,增加一banner提示;
3、 在a機、b機啟動hacmp(smitty clstart);
4、 跟蹤/tmp/hacmp.out(tail -f /tmp/hacmp.out),直到node_up_complete事件完畢。檢查雙機
hacmp狀態(clstat),捲組狀態(lsvg -o),檔案系統狀態(df),網絡卡及路由狀態
(netstat), cluster程序狀態(lssrc -g cluster)。如果不能得到預期的結果,則需要檢查
hacmp及系統配置;
5、 在a機執行smitty clstop, 選擇graceful with takeover;
6、 跟蹤雙機的/tmp/hacmp.out(tail -f /tmp/hacmp.out),檢查雙機hacmp狀態(clstat),捲組狀態
(lsvg -o),檔案系統狀態(df),網絡卡及路由狀態(netstat) ,cluster程序狀態
(lssrc -g cluster)。如果不能得到預期的結果,則hacmp.out檔案中應有相應的failure event的
提示,可依此對hacmp及系統進行檢查;
7、 如果情況正常,a機的資源被b機接管,則回到a機,執行smit clstart啟動hacmp;
8、 跟蹤雙機的hacmp.out(tail -f /tmp/hacmp.out),檢查雙機cluster狀態(clstat,lssrc -g
cluster),捲組狀態(lsvg -o),檔案系統狀態(df),網絡卡及路由狀態(netstat) 。如果a機不能取
回資源,檢查hacmp.out檔案,查詢failure event資訊,然後hacmp及系統進行檢查;
9、 如果以上情況都正常,則說明hacmp在沒有應用干預的情況下,雙機工作正常。可停止雙機hacmp
(smitty clstop)進行如下的測試。
二、載入應用測試
10、 檢查雙機捲組狀態(lsvg -o),檔案系統情況(df),網絡卡狀態及ip(netstat -in),檢查應用指令碼權
限、屬主,內容(將原先指令碼復原)。
11、 在a機執行smitty clsart,。
12、 跟蹤hacmp.out,檢查是否被正常啟動,檢查捲組、檔案系統、應用程序、網絡卡ip位址,同時還可
以進行簡單的應用測試。如果應用沒被啟動,則需要檢查應用啟動指令碼以及應用環境。
13、 如應用正常,則執行smitty clstop,選擇graceful;
14、 檢查hacmp.out、捲組、檔案系統、cluster程序、網絡卡ip位址。如果其中出現以下情況將不能停止:
1) 檔案系統沒有被unmount,檢查還有哪些程序在使用它(fuser -u filesystem),然後對應用腳
本進行優化。
2) 檔案系統被unmount,但卷組沒被varyoff,檢查lsvg -l vgname,檢視是不是還有lv是open狀
態,檢查還有哪些程序在使用它(fuser -u /dev/lvname),然後對應用指令碼進行優
化。
* 如果以上方法都無效,可嘗試如下方法,在停止應用指令碼未尾增加如下幾行:
sleep 30
fuser -ku /filesystem(將正在使用檔案系統的程序強迫殺掉)
fuser -ku /dev/lvname(將正在使用邏輯卷的程序強迫殺掉)
15、 如果上述情況正常,則證明機器a機應用指令碼沒有問題。現在開始啟動雙機的hacmp(smitty clstart);
16、 在a機執行smitty clstop, 選擇graceful with takeover;
17、 跟蹤雙機的/tmp/hacmp.out(tail -f /tmp/hacmp.out),檢查雙機hacmp狀態(clstat),捲組狀態
(lsvg -o),檔案系統狀態(df),網絡卡及路由狀態(netstat) ,cluster程序狀態(lssrc -g cluster)。
出現問題的原因可能有兩種:
1) a機cluster程序一致處在stopping狀態(lssrc -g cluster),a機hacmp.out有fail event信
息,這時可考慮在a機停止指令碼後加一時間延遲,如sleep 100。
2) a機資源正常釋放,b主機捲組、檔案系統、網絡卡位址都正常接管,但應用未啟動,此時應檢
查b機應用啟動指令碼屬性、內容以及應用環境。
18、 如果情況正常,則說明b機接管a機的資源正常。再在a機,執行smit clstart啟動hacmp;
19、 跟蹤雙機的hacmp.out(tail -f /tmp/hacmp.out),檢查雙機cluster狀態(clstat,lssrc -g
cluster),捲組狀態(lsvg -o),檔案系統狀態(df),網絡卡及路由狀態(netstat) 。如果a機不能取回
資源,參考14和17;
以上測試只是針對資源組是casscading方式,並且a機的優先順序比b機高。要測試以b機為主的資源組,同樣可參照
上述方法。
檢查hacmp常用命令:
1、 檢查檔案系統狀態
#df
2、 檢查網絡卡及ip位址狀態
# netstat -in
3、 檢視路由表
#netstat -rn
4、 檢查捲組
# lsvg
# lsvg -o 檢查啟用的捲組
# lsvg vgname 檢查捲組的屬性,捲組的有效空間、利用空間、空閒空間,捲組是否啟動啟用
# lsvg -l vgname 檢查捲組包含的邏輯卷
5、 檢查物理卷
# lspv
# lspv pvname 檢查物理卷屬性,空間使用情況
6、 效能分析檢查
# vmstat m n (m表示顯示行數,n表示間隔時間)
7、 頁空間使用情況
# lsps -a
# lsps -s
8、 程序狀態檢查
# ps -ef
# ps aux
9、 hacmp cluster程序狀態檢查
# lssrc -g cluster
# ps -ef | grep cluster
10、 檢查雙機節點執行狀態
# /usr/sbin/cluster/clstat (clinfo程序必須啟動)
11、 啟動、停止hacmp
# smitty clstart(推薦) & # rc.cluster & # startsrc -g cluster
# smitty clstop(推薦) & # clstop & # stopsrc -g cluster
12、捕獲hacmp啟停事件狀態資訊 tail -f /tmp/hacmp.out
HACMP接管問題
這是上個問題f85報0518錯誤的後續 主機接管問題處理步驟 一 主備機ha執行正常,進行備機停ha,主機進行接管的測試。二 備機執行 smitty clstop 選擇takeover 來停ha,tail f tmp hacmp.out 觀察輸出情況。三 備機顯示ok後,netstat in 看到服...
HACMP工作原理
author skate time 2009 12 07 hacmp工作原理 hacmp將診測並響應於三種型別的故障 1網絡卡故障,2網路工作,3節點故障。下面就這三種故障分別進行介紹。1 網絡卡故障 前面講到,hacmp的群集結構中,除了tcp ip網路以外,還有乙個非tcp ip網路,它實際上是...
HACMP其他命令使用操作說明
以下是我工作的情況。一 檢查資源掛載情況 1 啟動管理控制台,輸入smitty hacmp 回車 操作過程中按 f3 返回,回車 為確認操作 2 選擇系統管理,游標選擇system management c spoc 回車 二 切換ha資源到節點 1 啟動管理控制台,輸入smitty hacmp 回...