一般來說,只要系統架構設計得比較合理,大部分情況下系統都能正常執行,出現系統崩潰等故障問題是小概率事件。也就是說,業務開發是大部分軟體工程中的重頭戲,所以有人開玩笑說:「面試造火箭,入職擰螺絲。」
一般來說,我們進行排查分析的目的主要有:
我們按照問題的複雜程度,可以分為兩類:
如果您傾向於選擇後一種方式,那麼可能會浪費大量的時間,效果得看運氣。更糟糕的是,因為基本靠蒙,所以這個過程是完全不可**的,如果時間很緊張,就會在團隊內部造成壓力,甚至公升級為甩鍋和互相指責。
系統出現效能問題或者故障,究竟是不是 jvm 的問題,得從各個層面依次進行排查。
生產環境中進行故障排查的困難
在生產環境中針對特定問題進行故障排除時,往往會有諸多限制,從而導致排查的過程變得痛苦。
1. 影響到客戶的時間越短越好
JVM 問題排查分析下篇(案例實戰)
這一部分,我們來看乙個實際的案例。假設我們有乙個提供高併發請求的服務,系統使用 spring boot 框架,指標採集使用 micrometer,監控資料上報給 datadog 服務。有關micrometer的資訊可參考 問題現象描述最近一段時間,通過監控指標發現,有乙個服務節點的最大 gc 暫停時...
Linux下JVM記憶體溢位後排查分析
記錄下常用的方式,後期根據使用繼續完善。記憶體溢位後排查分析 1 通過命令檢視對應的程序號 比如 jps 或者 ps ef grep servicemix 2 輸入命令檢視gc情況 命令 jstat gcutil 程序號 重新整理的毫秒數 展示的記錄數 比如 jstat gcutil 14050 1...
hive效能調優及問題排查
軟體環境 hive1.2.1 hadoop2.6.4 直接使用hive cli模式執行 1.設定執行引擎 set hive.execution.engine mr set hive.execution.engine spark 如果設定執行引擎為mr,那麼就會呼叫hadoop的maprecude來執...