常規故障排錯流程

2021-09-26 13:42:02 字數 1507 閱讀 1228

1、發現

2、認知

3、處置

4、後續

1、自動監控發現

1)tivoli/zabbix

2)nem-zabbix

3)splunk

4)weblogic監控

5)第三方監控:基調、網宿、聽雲。。。

2、點檢發現

一線值班人員根據點檢手冊,定時定量檢查系統

3、業務反饋

業務人員、外部會員、測試人員

(一)監控的機制?報警的含義?監控的目的?

tivoli/zabbix/nem:

實時狀態:cpu、記憶體、分割槽容量占用、程序

應用日誌

資料庫定製化sql

埠、url

splink:

收集日誌-自定義監控策略

weblogic:

weblogic特有的屬性的監控(server、連線池等)

(二)理解報警內容,確認報警影響:

1)預警性(80%)

2)狀態性(程序)

3)提示性(使用者登入成功*)

明確處置目標(使用者訴求)

查詢原因

盡快解決

查詢原因:

保留現場、檢視資源狀態、應用日誌、開發調查

盡快解決:

一線案例、個人記憶、itil、edoc、confluence、團隊記憶、開發人員

1、保留事件記錄

事件單、問題單

2、保留用於分析問題的資訊

top、jstack、kill -3 、日誌

3、完善應急步驟、案例

4、完善監控、點檢

5、研究自動化應對*

6、根本解決問題(變更)

1、應用系統可用性故障

2、資料傳輸故障

3、應用系統部分功能異常或者使用者使用結果與預期不符

4、資料庫使用或資料異常

5、個別使用者使用應用系統異常等

MPLS L3 VNP排錯流程

如果端到端三層專線無法通訊,根據三層專線的原理,就需要檢查內層標籤和外層標籤分發傳播是否正常,本文重點關注vrf路由。排查分為兩步 如果對端無本端vrf路由,可能原因包括 1.未配置vpnv4 neighour 2.rr環境下,路由不符合路由傳遞規則,例如兩端都不是rr的客戶端 3.pe ce使用i...

dns故障排錯

dns故障排錯 1.故障現象 部分客戶反應 通過 計算機名的方式訪問伺服器失敗,但是可以通過 ip的方式訪問 ie中通過 主機名 的方式訪問網頁失敗,但是可以通過 ip 的方式客戶反應dns故障,要求排除 2.網路環境 域環境,已經建立內部的dns伺服器,客戶端通過dhcp獲取ip位址 3.故障排查...

故障排錯實戰案例

實戰案例1 centos 7 8 破壞mbr後進行恢復 dd if dev zero of dev sda bs 1 count 446 光碟進入救援模式 grub2 install root directory mnt sysimage dev sda 實戰案例2 entos 7 8刪除 boot...