警報疲勞是乙個棘手的問題,但事不宜遲,越早開始越好。利用警報資料,你可以有效清理監控系統,排除不可操作的警報。
簡便起見,我們編寫了對抗警報疲勞的七個步驟。
減少警報疲勞的七個步驟清理監控系統並不簡單,而且人們容易對高階別警報產生麻木感。但是,第一步需要決定如何處理報警。不妨先瀏覽一下你的報警資料,看下班時間出現了多少警報以及其影響。
接著,團隊啟動清理警報的工作流程。etsy 就曾設立過「黑客周」來解決大型監控衛生問題,當然,一周留出幾小時或每個月留一天進行清理工作也可以。
一旦發現不可操作的警報,直接刪除之。
對 cpu 和記憶體使用監控和警報非常普遍,因為這些指標會暗示是否存在錯誤。但是,這些指標無法給出具體的錯誤資訊,所以它們是不可操作的。etsy 已經放棄監測這些指標,轉而專注於排查更具體、可操作的資訊。
你可能還需要調整檢查的閾值。來自 exosite 的 dan slimmon 曾分享過乙個非常不錯的談話 「煙霧警報和汽車警報」,詳細介紹了兩個醫學檢測概念如何應用於設定警報問題。這兩個概念是敏感性和特異性,將兩者結合可得到陽性**值(ppv)——警報響起時確實存在問題的可能性。該談話還分享了如何通過滯後(結合考慮當前值與歷史值)與其他技術,改進 ppv 的策略。
儘管所有警報都很重要,但有些可能並不緊急。所以無需為了後者在半夜將整個團隊叫醒。你可以為非嚴重事件建立單獨的工作流程,以保證它們不再打擾你休息或當前的工作。在 pagerduty 中,可以通過在低嚴重性服務中禁用「incident ack timeout」和「incident auto-resolution」來設定。
當故障出現時,你可能會得到指向同一問題的多個警告。你可以根據監測依賴性進行設定,並利用 onealert 最佳實踐教程來整合警報:
收到警告後,得知某處出現問題,卻沒有能衡量問題嚴重程度的資訊,也不知該如何處理,這種情況最為糟糕。
為了保證清理工作的效果,你需要每週定期審查這些警報。 etsy 就定製過有趣的審查流程 「opsweekly」(點此檢視其 github repo),但也有些公司使用電子**來定期審查。
為了防止警告疲勞成為常態,可以為待命團隊設定量化指標。一旦滿足限度,無論是在監測清理過程還是在休息時間,都必須採取處理行動。 pagerduty 會檢視每週的警報數,如果某個待命團隊接收的報警數超過15,我們會總結並審查這些警報。
最重要的,是養成警報監控的團隊協作精神。如果你收到乙個不可操作的警告,即便只有一次,你也有責任確保該警報不會再打擾其他成員。
目前市面上的類似 saas 雲告警平台有幾個,大家可以參考下:國外的 pagerduty、victorops、opsgenie,國內目前做的比較好的是 onealert ,感興趣的同學可以去免費試用一下!
消除大腦疲勞的七個休息法
消除大腦疲勞的七個休息法 第乙個是正念呼吸法。大腦的所有疲勞和壓力都來自於過去和未來,一旦把沉迷於過去和未來當作理所當然,我們就會忘記如何將意識集中在當下。這種情況下,我們可以嘗試正念呼吸法。首先,我們要調整好姿勢,挺直背部,不靠椅背。手要放在大腿上,不交疊雙腿,腳掌平踩地面,閉上眼睛,眼睛如果睜開...
HTTP請求的七個步驟
http通訊機制是在一次完整的http通訊過程中,web瀏覽器與web伺服器之間將完成下列7個步驟 1.建立tcp連線 在http工作開始之前,web瀏覽器首先要通過網路與web伺服器建立連線,該連線是通過tcp來完成的,該協議與ip協議共同構建internet,即著名的tcp ip協議族,因此in...
軟體開發的七個步驟
軟體開發的七個步驟 功能設計 結構設計 編寫 功能測試 效能測試 部署維護 使用者體驗。關於軟體開發流程,英語中對應的單詞比較多,叫法不統一。我感覺在中文中採用這個七個詞更合適一些。箭頭首尾相接,組成乙個迴圈,表示這七個步驟不是一次性完成的,而是多次進行的。先設計核心的和主要的功能,然後就實現和測試...