rac的故障定位
比單節點資料庫更複雜
– 日誌的儲存位置更多
– 日誌的資訊量更大
– 故障更複雜
rac的核心程序,
cssd,crsd
。這兩個程序出現問題,那麼
rac就宕了。
rac比單例項資料庫程序要複雜的多。
rac日誌存放的位置也多,種類也多,相對於單例項。對於單例項資料庫,所有的關於資料庫的資訊幾乎都放在
alter
日誌檔案裡面,包括資料庫的故障,例項級別和資料庫級別故障。下面就是單例項出現故障時候只需要查詢的日誌。
[oracle@rac1 trace]$ pwd
[oracle@rac1 trace]$ tail -100f alert_oradb1.log
從日誌開始
作業系統日誌
– windows ---
日誌管理器
– linux--/var/log/messages
rac出現故障的時候可以最開始去讀系統的日誌。如果
rac啟動不了系統日誌就可以看到資訊。
[root@rac1 ~]# tail -5f /var/log/messages
jun 24 21:06:55 rac1 kernel: [oracle acfs] dlm hash size 62500
jun 24 21:06:55 rac1 kernel: acfsk-0037: module load succeeded. build information: (low debug) usm_11.2.0.4.0_linux.x64_130707 2013/07/07 22:39:19
jun 24 21:07:57 rac1 ntpd[1692]: listening on inte***ce #9 eth0:1, 192.168.56.203#123 enabled
jun 24 21:07:57 rac1 ntpd[1692]: listening on inte***ce #10 eth0:2, 192.168.56.21#123 enabled
集群日誌
11g下面切換到
grid
使用者,到
$oracle_home/log
下面[grid@rac1 log]$ cd $oracle_home/log
[grid@rac1 log]$ ls
crs diag rac1
[grid@rac1 log]$ cd rac1/
[grid@rac1 rac1]$ ls
acfs acfsreplroot agent crflogd cssd diskmon gnsd ohasd
acfslog acfssec alertrac1.log crfmond ctssd evmd gpnpd racg
acfsrepl admin client crsd cvu gipcd mdnsd srvm
要檢視程序的日誌就切換到相對應目錄下面找相對應日誌
[grid@rac1 rac1]$ cd cssd/
[grid@rac1 cssd]$ ls
core.2377 cssdout.log ocssd.log
[grid@rac1 cssd]$ tail -10f ocssd.log
2018-06-24 21:31:02.117: [ cssd][1890703104]clssnmsendingthread: sending status msg to all nodes
2018-06-24 21:31:02.117: [ cssd][1890703104]clssnmsendingthread: sent 5 status msgs to all nodes
總結下日誌檔案及其路徑
oracle 下的
alert
日誌$oracle_base/diag/rdbms/orcl/orcl1/trace/alertorcl1.log
grid 下的
alert
日誌 $oracle_home/log/rac1/alertrac1.log
css的日誌
$oracle_home/log/rac1/cssd/cssd.log ocssd.log
crs的日誌
$oracle_home/log/rac1/crsd/crsd.log
ohas的日誌
$oracle_home/log/rac1/ohasd/ohasd.log
evm的日誌
$oracle_home/log/rac1/evmd/evmd.log
RAC 未從SPfile啟動故障處理
今天上午發現rac的其中乙個例項sga不正常,檢視spfile sql show parameter spfile name type value spfile string 結果值沒有spfile,沒有從spfile啟動,檢視dbs下的pfile檔案發現該例項的pfile檔案的內容被改了 例項2上...
rac集群節點級聯重啟故障分析
rac集群節點級聯重啟故障分析 無意中發現以前處理故障寫的一篇文章,記錄下來以備查詢。www.2cto.com rac集群節點級聯重啟故障分析 環境 os linux db rac10g ocfs2 rac資料庫環境實際包含兩個集群,乙個是clusterware集群,乙個是instance集群。他們...
線上故障處理
於 2016 年 12 月 09 日 處理流程 故障後處理 前段時間在團隊內整理了乙份線上事故處理的流程,修改後在這裡分享。1.1 系統 業務報警 這個是獲取故障最常用的手段。一般的系統正常運營過程中都會有一定的指標監控。如 在系統層面某種報錯出現的次數,系統常規指標,如可用記憶體,jvm gc,連...