cat 監控系統

2022-07-03 14:30:21 字數 1027 閱讀 7464

cat(是應用監控系統,支援的訊息型別如下:

這裡我的註解版:

另外一點最關鍵的就是監控系統的資料一定要全,有些公司iaas層監控用zabbix, 業務層監控用自己公司研發的, 異常報警系統還有一套單獨的。鏈路跟蹤用其他的,如果出了問題,查起問題來需要跨多個系統。最好是能夠將如下資料打通:

硬體層:cpu,記憶體,網路,io,網路狀態、網路連通情況,負載情況,dns,cdn情況

基礎設施層:mysql,redis,mongodb,jvm,nginx等,主要檢視資料庫主從延遲,呼叫量,執行緒數,資料庫響應時間,慢sql,jvm包括gc和記憶體情況,nginx的網路負載情況。

服務層監控: 呼叫量,耗時,響應時間等,這些監控可以在介面級別,也可以在方法級別,甚至**塊級別。

大服務層: 有多少服務,每個服務多少臺機器,服務版本號,服務健康情況,服務鏈路

業務指標監控: metric, 交易量,註冊使用者。

系統發布事件,運維機器調整事件。這個主要是為了做異常排查的時候使用。

關於告警策略:

監控系統畢竟不能讓人天天在那裡守著,除了**中丟擲的異常報警,我們還可以

對資料本身進行監控,比如最大值,最小值,同比和環比的波動情況。

自定義規則,比如cpu大於某個閾值,記憶體小於某個閾值。 網路ping丟失,或者流量大於某個閾值。 

利用機器學習進行時間序列**。

關於異常快速分析和處理:

如果異常發生後都依靠人工去排查還是有些耗時的,監控系統應該還可以輔助技術人員快速發現問題,甚至直接解決問題。 

系統應該可以快速聚合錯誤,比如分析error日誌,聚合錯誤型別,快速定位到發生的錯誤型別。還可以根據鏈路日誌,找出請求引數。根據引數可以快速在stg環境復現。 還可以根據ip做聚合,看異常是發生在一台機器上,還是多台機器上都有。還可以和運維事件關聯,比如在發生異常之前,是否有其他依賴的系統發布。

對於某些異常,比如io超過閾值,或者cpu超過閾值,根據定義的規則(比如:  異常型別為連線池拒絕錯誤, qps環比增加30%, 且cpu整體利用率大於60% ) 可以呼叫發布系統,進行系統的橫向擴充套件。 

CAT監控學習

業務監控 通過幾個核心指標來確認業務正常 應用監控 通過監控應用執行指標來確定應用健康狀況 url call cache sql等 系統監控 監控系統的執行指標,cpu,memory,io 1 減少線上故障發現時間 2 減少線上故障定位時間 3 幫助應用程式進行優化 監控api定義往往取決於對監控或...

美團點評 Cat監控 執行緒池監控

如下 是我用來測試的乙個執行緒池工具類 public class threadpoolmanager private static threadpoolmanager sinstance public static threadpoolmanager getsinstance return sins...

實時監控Cat之旅 配置Cat集群需要注意的問題

在配置cat集群時,有一些設定是我們應該注意的,從它的部署文件中我們可以看到相關資訊,但說的還不夠明確和重要,大叔今天總結一下cat集群配置的注意事項 服務端datasources.xml用來設定連線的mysql,集群裡的伺服器對這項配置是相同的 如果客戶端配置是單台,上面兩項配置就可以正確工作了,...