JVM 問題排查分析下篇(案例實戰)

2021-10-09 16:29:55 字數 533 閱讀 4868

這一部分,我們來看乙個實際的案例。

假設我們有乙個提供高併發請求的服務,系統使用 spring boot 框架,指標採集使用 micrometer,監控資料上報給 datadog 服務。

有關micrometer的資訊可參考:

問題現象描述最近一段時間,通過監控指標發現,有乙個服務節點的最大 gc 暫停時間經常會達到 400ms 以上。

如下圖所示:

從圖中可以看到,gc 暫停時間的峰值達到了 546ms,這裡展示的時間點是 2020 年 02 月 04 日 09:20:00 左右。

客戶表示這種情況必須解決,因為服務呼叫的超時時間為 1s,要求最大 gc 暫停時間不超過 200ms,平均暫停時間達到 100ms 以內,對客戶的交易策略產生了極大的影響。

cpu 負載

JVM 問題排查分析上篇(調優經驗)

一般來說,只要系統架構設計得比較合理,大部分情況下系統都能正常執行,出現系統崩潰等故障問題是小概率事件。也就是說,業務開發是大部分軟體工程中的重頭戲,所以有人開玩笑說 面試造火箭,入職擰螺絲。一般來說,我們進行排查分析的目的主要有 我們按照問題的複雜程度,可以分為兩類 如果您傾向於選擇後一種方式,那...

Linux下JVM記憶體溢位後排查分析

記錄下常用的方式,後期根據使用繼續完善。記憶體溢位後排查分析 1 通過命令檢視對應的程序號 比如 jps 或者 ps ef grep servicemix 2 輸入命令檢視gc情況 命令 jstat gcutil 程序號 重新整理的毫秒數 展示的記錄數 比如 jstat gcutil 14050 1...

常見的幾種jvm問題排查

處理過線上問題的同學基本上都會遇到系統突然執行緩慢,cpu 100 以及full gc次數過多的問題。當然,這些問題的最終導致的直觀現象就是系統執行緩慢,並且有大量的報警。本文主要針對系統執行緩慢這一問題,提供該問題的排查思路,從而定位出問題的 點,進而提供解決該問題的思路。對於線上系統突然產生的執...