Prometheus告警收斂

2021-10-07 12:55:08 字數 464 閱讀 6793

告警面臨的最大問題:就是告警訊息太多,很可能會導致運維人員遺漏重要的告警資訊,或者一些無關緊要的小警報太多,收件人很容易麻木,可能不再理會。如果遺漏關鍵警報沒有及時處理可能會對系統業務造成重大故障。在這個問題上,alertmanager的告警收斂配置就變得尤為重要了。

合理的分組將類似的警報進行分類。可減少警報訊息,聚合同類告警可幫助運維人員排查問題。

配置例項:

route:

group_by: [

'alertname'

,'cluster'

] group_wait: 10s

group_interval: 10s

repeat_interval: 1m

receiver: '***'

routes: #根路由進行分組

- receiver:

Prometheus 告警收斂

prometheus 告警收斂 告警面臨最大問題,是警報太多,相當於狼來了的形式。收件人很容易麻木,不再繼續理會。關鍵的告警常常被淹沒。在一問題中,alertmanger在一定程度上得到很好解決。prometheus成功的把一條告警發給了altermanager,而altermanager並不是簡簡...

Prometheus告警簡介

告警能力在prometheus的架構中被劃分成兩個獨立的部分。如下所示,通過在prometheus中定義alertrule 告警規則 prometheus會週期性的對告警規則進行計算,如果滿足告警觸發條件就會向alertmanager傳送告警資訊。在prometheus中一條告警規則主要由以下幾部分...

Prometheus告警規則配置

建立告警規則配置檔案first rules.yml,建議放在與prometheus.yml同級目錄 修改配置檔案prometheus.yml,將告警規則配置檔案新增到prometheus.yml。注意路徑。global scrape interval 15s 這個是每次資料手機的頻率 evaluat...