需要將prometheus的報警規則存放在/etc/rules裡面的yml檔案中 同時prometheus的yaml檔案需要開啟alertmanager,通過alertmanager觸發告警到各個平台,例如釘釘。
rules.yml檔案
groups:
- name: api-server /報警名
rules:
- alert: api-server_cnt /報警規則名稱
for: 3m /持續時間
expr: count(up) > 2 /報警語法
annotations: /報警的內容
summary: "api-server大於2"
values: "}"
labels: /打標籤
severity: error
classification: lyz
workline: xdrive
- alert: instancegone
for: 10s
expr: absent(up)
annotations:
summary: "host } is no longer reporting"
labels:
severity: critical
classification: lyz2
workline: xdrive
接著需要在alertmanager的配置檔案中更新路由和接收者:
這裡定義預設接收者為lyz,同時routes使用分支路由,匹配標籤為serverity為critical的告警規則,傳送給lyz2
---重啟prometheus
---如果成功,則可以在頁面中看到
一旦觸發警告,則可以在alertmanager控制台中看到
注意,這裡silence可以配置靜默時間,可永久或暫停告警。
接著可以在釘釘等看到告警通知
告警成功。
非原創 Prometheus 查詢語言
promql prometheus query language 是 prometheus 自己開發的表示式語言,語言表現力很豐富,內建函式也很多。使用它可以對時序資料進行篩選和聚合。1.1 資料型別 promql 表示式計算出來的值有以下幾種型別 1.2 時序選擇器 1.2.1 瞬時向量選擇器 瞬...
Prometheus 監控節點
tar xf node exporter 0.18.1.linux amd64.tar.gz cd node exporter 0.18.1.linux amd64 cp node exporter usr local bin 檢視版本 root server03 media prometheus ...
Prometheus告警收斂
告警面臨的最大問題 就是告警訊息太多,很可能會導致運維人員遺漏重要的告警資訊,或者一些無關緊要的小警報太多,收件人很容易麻木,可能不再理會。如果遺漏關鍵警報沒有及時處理可能會對系統業務造成重大故障。在這個問題上,alertmanager的告警收斂配置就變得尤為重要了。合理的分組將類似的警報進行分類。...