一場監控平台架構培訓感悟

2022-05-15 02:33:09 字數 1996 閱讀 5061

最近部門安排了一場關於自動化運維體系的系列培訓,開篇培訓就是監控平台的講解,聽完之後很有感觸,在此記錄下當晚培訓的主要知識點以及自己的理解

正文自動化運維體系

首先放上整個運維體系架構

架構最底層就是一些硬體基礎,在硬體基礎之上建立cmdb與web_api(對底層做了一次封裝,提供一些操控與獲取資訊的功能),在此之上建立自動化部署,自動化監控,docker虛擬化、彈性計算等服務,最頂層為最終的web管理平台。

本次培訓主要講解的是自動化監控這部分,自動化監控從伺服器、元件、服務、業務、應用、容量等多個維度對專案進行全面的監控,支援多樣化策略配置,支援簡訊和郵件的告警,為專案的未定執行保駕護航。

自動化監控

接下來再附上整個自動化監控的架構

整個自動化監控最底層是那些被監控的物件,這些物件主要包括伺服器的cpu以及記憶體,引擎容量,會話資訊,錯誤等等,在此之上建立了乙個模組負責守護與收集資料,並且儲存至mysql、tair、redis等資料庫;收集完資料之後,必定需要對資料進行處理與分析,因此又在原有的基礎上建立了資料分析處理模組。該架構最頂層屬於展現與管理層面,主要是負責展示展示程序,容量,以及生成一些報表等功能。

監控資料流

上圖是整個自動化監控系統中的資料流向圖,資料首先會在各個伺服器元件上產生,通過pmi傳送給pmc,pmc將資訊**給pms,再由pms將資料分類儲存在不同的資料庫中。web展示和查詢,資料分析報警,元件和業務波動測都會利用這些資料,來呈現最終的監控效果。

各元件介紹

pmc對服務的守護

pmi與pmc之間會建立心跳聯絡,被監控的元件會定時上報程序和執行緒資訊給pmc,pmc也會定時檢測被監控元件的存在。如果心跳聯絡斷開了,那麼pmc會遠端啟動儲存在伺服器上的指令碼,重新啟動元件。

伺服器報警邏輯

伺服器報警邏輯中,host會將基礎指標傳遞給pmc,pmc定時上報給pms,再由pms儲存到mysql中,在這個流程中,如果pms長時間沒有受到pmc傳遞的資料,便會回撥pmc,如果pmc回撥成功,說明pmc上傳資料超時;如果失敗,在ping一次host主機,如果成功,說明pmc異常,如果失敗,說明host異常

元件,業務波測邏輯

在監控過程中,有時需要對被監控物件所需的內部服務或者外部服務進行波測,確保被監控物件的穩定執行,因此該監控平台建立了一套波測流程。首先會由專案管理員對波測進行配置,將配置資訊儲存至mysql中,波測服務ppm會查詢資料,呼叫指令碼進行波測互動,並且將波測結果存入資料庫,再由報警服務pma取出資料,並對其進行分析,以判斷是否報警

資料分類儲存資料庫

該平台利用了mysql,redis,tair等資料庫,其中mysql資料庫中儲存伺服器的基本資訊,一些配置資訊等,mysql資料庫中會儲存一年內的所有資料;tair資料庫中儲存實時元件服務資訊,僅會儲存一小段時間的資訊,主要用於配合伺服器資訊進行報警

遇到問題與優化

該體系設計之初,在pmi與pmc,以及pmc與pms之間都是一條資料傳輸一次請求,造成網路io效能的瓶頸,最後對其進行優化將原來的單處理切換成批處理,也即先將所需傳送的資料快取起來,到達一定條件後一次性傳送。批處理支援兩種策略混合

由於業務方資料傳輸的資料多且雜,有很多重複資料,因此在pmi層對資料進行精簡,只快取傳送有用的資料

企業運維監控平台架構設計與實現

阿里雲大學 企業運維監控平台架構設計與實現 本課程主要介紹了企業常見的運維監控平台的構建思路和常用軟體,講述了cacti nagios zabbix ganglia webnagios等常用監控軟體的差異和優劣,並深入介紹了通過ganglia nagios如何快速構建乙個統一運維監控平台。課時列表 ...

企業運維監控平台架構設計與實現

課程介紹 本課程主要介紹了企業常見的運維監控平台的構建思路和常用軟體,講述了cacti nagios zabbix ganglia webnagios等常用監控軟體的差異和優劣,並深入介紹了通過ganglia nagios如何快速構建乙個統一運維監控平台。名詞解釋 cacti 網路流量監控。nagi...

51信用卡在微服務架構下的監控平台架構實踐

51信用卡的技術架構是基於spring cloud所打造的微服務體系,隨著業務的飛速發展,不斷增多的微服務以及指標給監控平台帶來了極大的挑戰。監控團隊在開源vs自研,靈活vs穩定等問題上需要不斷做出權衡,以應對飛速發展的需求。本次將會分享我們在微服務下的白盒監控思考,以及如何將時下社群流行的spri...