rac集群節點級聯重啟故障分析

2022-04-08 19:39:56 字數 1816 閱讀 2827

rac集群節點級聯重啟故障分析

無意中發現以前處理故障寫的一篇文章,記錄下來以備查詢。

www.2cto.com  

rac集群節點級聯重啟故障分析

環境:os:linux

db:rac10g+ocfs2

rac資料庫環境實際包含兩個集群,乙個是clusterware集群,乙個是instance集群。他們的大概工作方式是:

1.如果clusterware先發現集群故障,他就會直接重組集群,尚存的節點鎖住dead節點的journal,並恢復它;等clusterware重組之後,再通知上層的instance集群,使instance集群重組達到新的穩定狀態

2.如果是instance集群先發現集群的故障,則rac會停止對外服務,並通知clusterware層集群完成集群重構,達到新的穩定狀態,clusterware重構之後,在通知instance集群層,rac再開始重構;但是如果clusterware無法完成重構,那rac通過imr機制自己重構集群以達到新的穩定狀態 

www.2cto.com  

rac集群級聯重啟一般原因

主庫的乙個節點重啟引起的voting磁碟hang住,導致其他節點無法訪問,導致occsd程序故障,clusterware又檢測到新集群故障,因此再次重組集群到新的穩定狀態。

調整的根據

因為是由於voting磁碟長時間hang住不響應引起的其他節點的繼續重啟,

哪些引數可能因為磁碟hang引起重啟

clusterware集群:o2cb的o2cb_heartbeat_threshold每兩秒更新一次系統檔案(磁碟檔案),以確定節點存活,如果超過閥值,就重啟

rac集群:voting磁碟的disktimeout引數預設是200s,如果超過超過這個閥值,節點也會重啟

我們的系統linux採用的多路徑軟體device-mapper-multipath

為了避免節點級聯重啟,可以通過增加clusterware的dead閥值來避免重啟,根據以下公式(10.2.0.2版本以上)

o2cb_heartbeat_threshold >= ((max(hw_storage_timeout, sw_storage_timeout) / 2) + 1)

disktimeout > max((o2cb_heartbeat_threshold - 1) * 2, hw_storage_timeout, sw_storage_timeout)

所以將o2cb_heartbeat_threshold=31調整為o2cb_heartbeat_threshold=61(即由60秒增加到120秒),這樣調整是為了給voting磁碟足夠的recover時間,避免節點誤重啟

misscount引數先不調整,因為我們從重啟的log裡還沒有直接發現是因為網路的原因,經過線下環境的測試發現,模擬ocfs2檔案系統突然出問題,可再現和生產環境重啟類似的日誌資訊。根據觀察調整後情況,再看是否需要調整這個引數

www.2cto.com  

調整o2cb_heartbeat_threshold步驟

0.停止所有連線db的服務

1.停掉所有節點的crs

2.stop ocfs2服務

3.修改所有節點引數o2cb_heartbeat_threshold

4.重啟所有節點o2bc服務,啟動ocfs2,啟動crs服務

5.測試應用正常與否 影響

1、影響db對外服務時間

2、不會影響rac集群的穩定及資料的丟失

如果發現有異常問題,只需步驟把引數調回即可

參考文件  

[id 395878.1]  [id 457423.1]  [id 391771.1]  [id 294430.1]  

作者 skate

電腦自動重啟故障分析

電腦自動重啟故障分析 一 軟體 1 病毒破壞 比較典型的就是前一段時間對全球計算機造成嚴重破壞的 衝擊波 病毒,發作時還會提示系統將在60秒後自動啟動。其實,早在dos時代就有不少病毒能夠自動重啟你的計算機。對於是否屬於病毒破壞,我們可以使用最新版的防毒軟體進行防毒,一般都會發現病毒存在。當然,還有...

電腦自動重啟故障分析解決

不再擔心 電腦自動重啟故障分析解決 一 軟體 1 病毒破壞 自從有了計算機以後不久,計算機病毒也應運而生。當網路成為當今社會的資訊大動脈後,病毒的傳播更加方便,所以也時不時的干擾和破壞我們的正常工作。比較典型的就是前一段時間對全球計算機造成嚴重破壞的 衝擊波 病毒,發作時還會提示系統將在60秒後自動...

Oracle 新增RAC資料庫集群節點 一

本系列文章詳細記錄了在已有兩個rac節點的基礎上,新增rac第3個節點的過程,期間對rac的使用沒有任何影響,rac節點的作業系統均為centos4.8 64位版,資料庫版本均為10.2.0.1 一 準備工作 1 配置新節點作業系統環境同其他節點一致,包括共享儲存,補丁包,核心引數,使用者環境變數等...