監控資料的採集

2021-09-11 09:40:46 字數 2220 閱讀 1872

監控資料有多種形式--有些系統會持續地輸出資料,而其他系統只會在發生罕見事件時生成資料。有些資料能夠直接定位問題,有些資料能幫助調查問題。更寬泛的說,擁有監控資料是觀察系統工作狀況的必要條件。

無論採集什麼形式的監控資料,核心要點都是一樣的:

採集資料的開銷很小,但是如果在需要的時候沒有資料,代價可就大了。所以有必要檢測所有內容,並且合理地收集所有有用的資料。

指標是在特定時間捕獲的與系統相關的值 -- 比如當前登陸到web應用程式的使用者數量。因此,通常以固定時間間隔收集指標,比如每秒採集一次,每分鐘採集一次。

我們把指標主要分成兩類:工作指標和資源指標。對於軟體依賴的每個系統,應該考慮哪些工作指標和資源指標是合理的,並且將其全部收集。

工作指標通過系統的輸出來獲取系統的執行狀況。在考慮採集工作指標時,通常可以將這些指標分成四類:

上面講的指標對於觀察系統的執行狀況非常重要。採集到了這些資料可以快速回答關於系統內部健康和效能最緊迫的問題:系統現在可用嗎?系統現在效能如何?

以下是兩種常見系統的所有四種子型別的工作指標示例。

web伺服器

子型別描述

值吞吐量

每秒請求數

312成功率

兩次測量間2xx的響應百分比

99.1

錯誤率兩次測量間5xx的響應百分比

0.1效能

百分之90的請求的響應時間(秒)

0.4 資料儲存服務

子型別描述

值吞吐量

每秒查詢次數

949成功率

兩次測量間成功執行的查詢百分比

100失敗率

兩次測量間成功執行的查詢百分比

0失敗率

兩次測量見返回過時資料的查詢百分比

4.2效能

百分之90的查詢時間(秒)

0.02

軟體基礎架構的大多數元件都成為其他系統的資源。有一些資源是底層的,比如cpu,記憶體,磁碟和網路介面之類的物理元件。如果另外一些元件,比如資料庫或者地理定位微服務也可以被看成是資源,因為其他的系統需要這些元件來完成工作。

資源指標有助於了解系統的詳細狀態,這在調查問題和診斷問題的時候是特別有價值的。資源指標可以分為四類:

利用率:資源繁忙時間的百分比,或者資源容量正在使用的百分比

飽和度:當前系統無法提供服務的請求的數量,通常會把這些請求存在佇列中後續處理

錯誤:在工作過程中資源產生的內部錯誤

可用性:資源響應請求的時間百分比。僅對可以主動和定期檢查的資源可以定義可用性

下面是幾種常見的資源型別的指標示例

資源利用率

飽和度錯誤

可用性磁碟 io

裝置繁忙時間的百分比

等待佇列長度

裝置錯誤

可寫的時間的百分比

記憶體已使用的記憶體百分比

swap使用率

(通常觀測不到)

通常觀測不到

微服務每個請求服務執行緒忙的平均時間百分比

請求數量

服務丟擲異常

服務可用時間的百分比

資料庫每個連線繁忙的平均時間百分比

排隊中的查詢

內部錯誤,比如複製錯誤

服務可訪問的時間百分比

還有一些指標,既不是工作指標,也不是資源指標,但這些指標同樣有助於觀察複雜的系統。比較常見的例子是快取命中數或者資料庫鎖。

除了可以連續收集的指標外,一些監控系統還可以捕獲事件,這些事件往往是頻繁的,離散的,但對整個系統的理解是有幫助的。比如:

事件通常帶有足夠的資訊,可以單獨解釋,而不像單個資料點通常只有在上下文中才有意義。

事件會記錄在特定時間點發生的事情,比如

時間時間

附加資訊

hotfix f464bfe發布到生產環境了

2015-05-15 04:13:25 utc

pull request 1630被合併了

2015–05–19 14:22:20 utc

commit:ea720d6

每夜資料彙總失敗

2015–05–27 00:03:18 utc

失敗任務的鏈結

事件有時候用來生成告警--通知負責人事情的發生,比如上面的第三個例子。不過這些事件更常用的用法是調查問題。一般來說,最好像指標一樣考慮這樣的事件--盡可能地收集它們。

需要收集的資料應該有四個特徵:

監控軟體 資料採集方式

目前流行的監控資料採集方式通常有兩種 主動方式和被動方式。主動方式主要通過監控終端 伺服器直接訪問被監控物件的方式獲取監控資訊。此方式由於需要跨越防火牆,對技術的要求比較高,實現起來比較複雜,特別是當監控終端安裝了不同的防火牆軟體時,實現起來極其困難。並且由於監控伺服器需要對多台監控終端進行監控,當...

如何實現資料監控 工控資料採集,實現遠端監控

在網際網路領域,無論是消費網際網路還是工業網際網路,資料成為企業或者行業的重要資源,數字不僅僅是一種匱乏的資源更是行業發展的驅動力,在工業行業來說,機器的資料儼然成為整個生態鏈最基礎的東西,當資料成為乙個分析的 同時也會產生巨大的價值能力。實現遠端監控 能耗管理 資訊化配置 以及接入各種ems配合傳...

監控採集卡

最近做了個監控安裝活,分別使用了兩個不同公司的採集卡,將自己使用的經驗寫出來與大家共享。a hb5卡 b 801q a卡特點1 使用中占用cpu比較高,用c430cpu有時會宕機,對配置低的機器不適合。2 不支援螢幕保護,開啟屏保後到屏保時間監控軟體自動退出,這一點最不好。3 通過adsl網路傳輸影...