監控系統Metis方案設計

2021-06-29 03:54:36 字數 1854 閱讀 3471

監控系統metis方案設計

一、概述

對於乙個業務系統而言,不同的角色關注的點會有一定差異。領導或負責人系統獲取系統的sla,系統間的相互作用,展示資源消耗情況;運維人員需要獲取基礎設施和服務的實時狀態資訊,各種軟硬體錯誤,效能變化及效能瓶頸;開發人員需要知道系統主要效能瓶頸,經常出現的錯誤,便於著力解決重要問題。要滿足這些需求,一套可擴充套件,易使用的監控系統便非常必要了。它可以對系統監控指標、應用監控指標進行獲取、儲存、計算,同時也要能根據預先設定的規則進行報警。基於此,並結合**大資料平台的監控需求,擬設計一套監控系統metis。

主要功能:

n 可以獲取伺服器硬體監控指標(disk, net, mem, cpu etc.)

n 可以獲取業務自定義監控指標(click, upload, dispatch etc.)

n 可以獲取應用jvm監控指標

(ygc, fullgc, perm etc.)

n 可以獲取主機是否存活

n 可以獲取埠是否存活

n 可以獲取url是否存活

n 可人為干預停止、啟動相關應用監控指標獲取

n 基於grafana完成靈活的指標圖形展現

n 可配置的監控報警功能

n 整合nagios、簡訊平台、

edm平台完成報警功能

整體架構設計

負責接收web

端操作命令,獲取業務伺服器上日誌中的監控資料,傳送到

kafla

集群等;

kafka:

負責儲存從各個業務機器中採集到的監控資料,緩衝供metis collector

消費等;

metis collector:

負責消費kafka

集群中緩衝的監控資料,並經過簡單處理後傳送給後端

tsd等;

metis nginx:

負責對metis collector

的儲存put

請求,根據負載情況選擇相應

tsd等;

opentsdb tsd:

負責將接收到的監控資料持久化到hbase

,並響應客戶端的查詢請求等;

hbase cluster:

負責作為opentsdb

的資料儲存層等;

metis grafana:

負責根據使用者的監控展現需求,通過opentsdb

從hbase

獲取相關監控資料;

二、詳細設計

1.監控日誌

通過提供的sdk

,可以列印出標準的

json

格式監控日誌。日誌路徑需要預先配置好

log4j

的配置檔案中定義名為「

」的和「

metis-logger

」的logger。

目前暫時支援的監控型別有:

a: gauge-代表的某個被監控的資料某個時間點的狀態值,比如記憶體耗用量、磁碟空閒量等。

b:counter-代表的在指定時間粒度範圍上的次數累計值

c:timer-代表的是在某個事件發生的耗時情況

2.資料入庫

3.指令下發 

通過介面操作,控制對某台機器上某個監控日誌的採集與否,同時可調整採集資料的上報間隔 

4.許可權控制

整合公司自己的auth系統作為許可權部分,這邊需要記錄

5.監控報警

額外開發定製化worker,當統計到預先配置的閥值時,呼叫簡訊或者郵件傳送報警資訊。

6.圖表展現

使用grafana作為圖表展現繪製框架。

技術方案設計

概要設計文件 技術方案 1.由原始需求逐步拆分,深入 後期迭代增加 2.資料流圖,整體流程 每一條資料流鏈路,便於查問題節點 3.不僅給技術開發看,面向產品和測試,對測試的輸出和產品的輸出 4.寫出支撐功能點,前端對接的資料結構 流程 需求評審 設計方案評審 資料鏈路,需求拆分 技術方案評審 實現方...

搭建AEC效果評測系統 (1)系統方案設計

高效能的aec automatically echo cancellation 演算法可以提公升智慧型音箱的語音喚醒準確率。為了充分發揮aec演算法的效能,結構上需要麥克風盡可能少地拾取echo聲,因此需要找到音箱麥克風孔的最佳開孔位置。聲學工程師可以通過建模 的方式計算出較合適的麥克風開孔位置。工...

BI系統AWS雲遷移方案設計 通用

背景 為一家大型企業本地化bi系統做上雲遷移的總體方案。客戶對當前本地的bi系統不滿意,希望遷移到aws雲之後,能夠重新用tableau做新的bi報表設計。所以這不是本地系統的平滑遷移,而是需要在雲上重建bi系統的優化遷移。因此,主要內容是bi資料的遷移,利用aws原生服務和生態廠商服務重建資料倉儲...