我們都知道監控對確保**和應用的平穩執行是多麼重要,但這只是乙個方面。一旦發現錯誤,監控軟體發出了告警訊息你該怎麼做?如何決定下一步採取什麼措施?
乙個合理的告警流程可以幫助你優先處理最重要的問題,並且避免讓問題打擾到不在職責範圍內的無關人員。更廣泛地說,它使得每個人都清楚地知道自己應該解決什麼問題。
建立乙個合適的告警處理流程可能會比較棘手,這個過程需要自己去摸索。適合你的規則可能不適合另乙個團隊——即使是相同規模的團隊或者處於同一行業的團隊。
如何建立合適的處理流程,取決於你的團隊,專案類別、專案的基礎架構,團隊的組織架構和使用的工具。那麼你應該從**開始呢?
根據經驗,建立公升級過程需要考慮以下3件事情:
嚴重程度等級結構
團隊的組織結構
閾值及其相應的通知渠道
1. 嚴重性等級結構
設定嚴重性等級結構的最簡單方法是根據商業價值來確定**或應用的最關鍵部分。
例如,一家**的的最關鍵部分就是它的產品目錄和結賬功能。這些功能如果停止工作將會導致**業務受到嚴重影響。因此,這些問題應排在其他問題之前優先考慮。
下面是筆者發現的建立嚴重性等級結構的好方法:
分析告警歷史,找出任何可能應該定級為非常規嚴重等級的常見問題(比如,假超時可能應標記為低嚴重性,儘管在其他更高的層級中,超時應歸類為高嚴重性)
決定衡量的級別(例如,低、中、高)。你可以新增更多的級別,這取決於專案和團隊的規模。
一旦完成分析步驟,估計每個功能或的內容物件的嚴重性程度,以及在告警歷史中發現的任何經常性錯誤。
誠然,並沒有所謂的正確或錯誤的方式來判定嚴重性等級。要知道,重要的是了解團隊如何劃分具體的事件,並確保每個人都達成共識。onealert 的告警分析功能,能夠針對一段時間內的告警進行不同維度的分析,幫助運維團隊快速做出最佳決策。
2. 團隊結構
接下來,你應該了解自己的團隊結構。
清晰地認識團隊結構並使問題傳達自動化,將幫助你定義更高效的通訊流。例如,負責生產環境的一線團隊成員應立即得到問題通知,如果一線成員在設定時間內沒解決告警問題,就會公升級到二線成員,公升級事件的嚴重性。在這個過程中,可以將重要的告警同時分派給正確的人,比如:專案經理只需知道關鍵問題,以便了解潛在的大問題。
明確團隊的組織結構,對問題處理的平均時間是非常關鍵的。
你必須考慮下面三點:
3. 通訊結構
如果你不知道告警在團隊結構內應該如何流通,建立通訊結構將是建立嚴重性等級過程中最為困難的一環。
你可以這樣考慮:
根據團隊結構,選擇合適的通知渠道與閾值配置,意味著問題解決更加高效,且不會牽涉到無關人員。
例如,**發生了緊急事件,**管理員會馬上接到**,與此同時,負責該功能的開發人員也將收到簡訊通知。如果問題沒有在10分鐘內得到解決,團隊經理也會接到**通知。
在 onealert 中,你可以通過告警分析功能輔助你來判斷告警級別的嚴重性,然後將不同級別的告警,發給對應的成員,並選擇合理方式進行通知。也可以通過不同的主機組進行告警的分派,讓正確的成員處理正確的告警問題。希望這篇文章對你有所幫助!也歡迎你分享自己使用的嚴重性告警流程。
本文** oneapm 官方部落格
告警的處理
今天我學習了 幾個告警的處理 haproxy監聽埠監控 將告警處理,然後把配置埠新增到配置檔案中。如果配置匯入失敗,那麼就連線機器把haproxy的程序殺死,然後再匯入 本機dns解析異常 如果有多個dns,那麼把出現故障的dns給注釋掉。如果dns個數很少,那麼新增新的dns,不過新增dns時要注...
怎樣選擇合適的ADC晶元
2011 10 25 16 09 31 分享 標籤 adc 模數轉換器的文章網上非常多,目前自己也在選,這裡把找到的資料彙總整理一下,並加上一些自己的小看法,整理如下 積分型積分型ad工作原理是將輸入電壓轉換成時間 脈衝寬度訊號 或頻率 脈衝頻率 然後由定時器 計數器獲得數字值。逐次比較型 逐次比較...
怎樣選擇合適的字符集
我們建議在能夠完全滿足應用的前提下,盡量使用小的字符集。因為更小的字符集意 味著能夠節省空間 減少網路傳輸位元組數,同時由於儲存空間的較小間接的提高了系統的性 能。有很多字符集可以儲存漢字,比如utf8 gb2312 gbk latin1 等等,但是常用的是 gb2312 和gbk。因為gb2312...