應用效能監控方法一覽

2021-09-17 05:36:04 字數 1825 閱讀 2093

在基於雲的服務中,正常執行時間應該是最為重要的運維指標之一。服務如果頻繁地中斷,不僅會導致正常使用的中斷,還會對品牌帶來負面影響。99.9%或99.99%已經算不上高水準的高可用性了,使用者期望的是100%的可用性。為了達到這一點,我們不僅需要遵循良好的設計模式並保持服務的可擴充套件性,同時還要保證硬體、應用伺服器以及資料庫伺服器的健康執行。

\\ 近日,來自zephyr的cto shailesh mangal撰文總結了各種監控型別以及所需的工具。zephyr致力於為開發和qa團隊提供解決方案,幫助交付高質量的軟體,他們所提供的企業級測試管理產品能夠與各種工具整合,實現測試的實時管理。

\\ 在shailesh mangal的文章中,他總結了核心基礎設施監控、應用級別監控、微服務監控以及多租戶日誌監控的工具以及各自的指標,為我們進行應用的全方位監控提供了指導。

\\核心基礎設施監控(core infrastructure monitoring,cim

\\ 在目前的雲基礎設施中,出現硬體故障是難以避免的。核心基礎設施監控會探測硬體瓶頸相關的早期跡象並捕獲硬體故障訊號,在出現更大的問題之前對其進行應對。基礎設施監控的範圍包括機器的健康狀況、cpu使用、記憶體消耗以及網路頻寬,基於這些監控資訊,能夠判斷基礎設施的當前狀態,從而進行必要的擴充套件。

\\ 有眾多的工具都能幫助我們獲取硬體的健康狀態。在大多數情況下,託管提供商(如amazon aws、heroku)的工具基本上就能滿足這種監控的需要。

\\ cim的指標包括:

\\,alm

\\ 應用級別的監控涉及到監控各種伺服器的狀態,如資料庫伺服器、應用伺服器、分析伺服器以及hadoop集群,而要監控的引數則是與應用或工具相關的。

\\ 應用監控方面有不少偉大的工具,如datadog和new relic。

\\ 應用監控的指標包括:\\

微服務監控(micro service monitoring,msm

\\ 微服務是現代雲架構的組成部分,是實現水平擴充套件的關鍵。不管你執行的是傳統的單塊系統還是設計良好且組織精密的微服務,這些系統都會有不同的api端點,遵循不同的協議,滿足不同的sla需求。微服務監控就是要監控每個服務的吞吐量和效能,進而確保在任何時間都能滿足sla的需求。這種型別的監控一般都需要對應用進行instrument操作,讓instrumentation是可配置的,通過收集器(collector)收集應用的狀態,並階段性地將這些狀態傳送到永久儲存、分析器和預警系統中。此類監控往往會產生大量的資料,因此有可能會影響到效能,因此需要仔細設計。

\\ 微服務監控的工具方面,儲存引擎可以選擇graphitedb或influxdb,視覺化工具可以選擇kibana或grafana。

\\ 微服務監控的指標包括:\\

多租戶日誌監控(multitenant log monitoring,mlm

\\ 對於多租戶部署的系統來講,很大的乙個挑戰就是監控日誌並推斷系統的內部情況,或者當出現問題時識別出根本的原因。無數的客戶端會產生大量的日誌,因此對於日誌隔離來說,有唯一的標識(如tenantid)是第一步。除此之外,日誌還需要根據請求分組,如果請求要跨多個服務時,這一點尤為重要,每個服務都產生一些日誌資訊將會有助於識別問題。

\\ 多租戶日誌監控中有非常經典的工具,也就是elk(elasticsearch, logstash, kibana)技術棧。

\\ 多租戶日誌監控的指標包括:\\

總而言之,好的監控要涉及到系統各個方面,從硬體、應用再到服務。如果需要構建多租戶應用的話,使用配置恰當的elk技術棧也有助於快速診斷問題。

\\ 感謝徐川對本文的審校。

\\

應用效能監控方法一覽

在基於雲的服務中,正常執行時間應該是最為重要的運維指標之一。服務如果頻繁地中斷,不僅會導致正常使用的中斷,還會對品牌帶來負面影響。99.9 或99.99 已經算不上高水準的高可用性了,使用者期望的是100 的可用性。為了達到這一點,我們不僅需要遵循良好的設計模式並保持服務的可擴充套件性,同時還要保證...

應用效能監控方法一覽

在基於雲的服務中,正常執行時間應該是最為重要的運維指標之一。服務如果頻繁地中斷,不僅會導致正常使用的中斷,還會對品牌帶來負面影響。99.9 或99.99 已經算不上高水準的高可用性了,使用者期望的是100 的可用性。為了達到這一點,我們不僅需要遵循良好的設計模式並保持服務的可擴充套件性,同時還要保證...

應用效能監控方法一覽

在基於雲的服務中,正常執行時間應該是最為重要的運維指標之一。服務如果頻繁地中斷,不僅會導致正常使用的中斷,還會對品牌帶來負面影響。99.9 或99.99 已經算不上高水準的高可用性了,使用者期望的是100 的可用性。為了達到這一點,我們不僅需要遵循良好的設計模式並保持服務的可擴充套件性,同時還要保證...