1、發現
2、認知
3、處置
4、後續
1、自動監控發現
1)tivoli/zabbix
2)nem-zabbix
3)splunk
4)weblogic監控
5)第三方監控:基調、網宿、聽雲。。。
2、點檢發現
一線值班人員根據點檢手冊,定時定量檢查系統
3、業務反饋
業務人員、外部會員、測試人員
(一)監控的機制?報警的含義?監控的目的?
tivoli/zabbix/nem:
實時狀態:cpu、記憶體、分割槽容量占用、程序
應用日誌
資料庫定製化sql
埠、url
splink:
收集日誌-自定義監控策略
weblogic:
weblogic特有的屬性的監控(server、連線池等)
(二)理解報警內容,確認報警影響:
1)預警性(80%)
2)狀態性(程序)
3)提示性(使用者登入成功*)
明確處置目標(使用者訴求)
查詢原因
盡快解決
查詢原因:
保留現場、檢視資源狀態、應用日誌、開發調查
盡快解決:
一線案例、個人記憶、itil、edoc、confluence、團隊記憶、開發人員
1、保留事件記錄
事件單、問題單
2、保留用於分析問題的資訊
top、jstack、kill -3 、日誌
3、完善應急步驟、案例
4、完善監控、點檢
5、研究自動化應對*
6、根本解決問題(變更)
1、應用系統可用性故障
2、資料傳輸故障
3、應用系統部分功能異常或者使用者使用結果與預期不符
4、資料庫使用或資料異常
5、個別使用者使用應用系統異常等
MPLS L3 VNP排錯流程
如果端到端三層專線無法通訊,根據三層專線的原理,就需要檢查內層標籤和外層標籤分發傳播是否正常,本文重點關注vrf路由。排查分為兩步 如果對端無本端vrf路由,可能原因包括 1.未配置vpnv4 neighour 2.rr環境下,路由不符合路由傳遞規則,例如兩端都不是rr的客戶端 3.pe ce使用i...
dns故障排錯
dns故障排錯 1.故障現象 部分客戶反應 通過 計算機名的方式訪問伺服器失敗,但是可以通過 ip的方式訪問 ie中通過 主機名 的方式訪問網頁失敗,但是可以通過 ip 的方式客戶反應dns故障,要求排除 2.網路環境 域環境,已經建立內部的dns伺服器,客戶端通過dhcp獲取ip位址 3.故障排查...
故障排錯實戰案例
實戰案例1 centos 7 8 破壞mbr後進行恢復 dd if dev zero of dev sda bs 1 count 446 光碟進入救援模式 grub2 install root directory mnt sysimage dev sda 實戰案例2 entos 7 8刪除 boot...