常見問題及處理流程:
定位點:應用場景.資料庫監控,查詢,慢查詢,io操作,引擎.
分析伺服器上業務,看具體業務查相應的指標.各層依賴都要做監控.
依賴服務
問題分析依賴於乙個較完善的監控平台提供各個指標,以便於進行問題定位,找到最終問題點.具體監控平台改造有兩種方式:
搭建比較完備的監控.監控應用,監控應用依賴資源,中介軟體,連線等.可以進行快速關聯,各種維度的指標.最簡單的關聯就是根據時間關聯;
避免直連,通過邊車模式,可以快捷的獲取監控指標.分析查詢操作,時間,各種指標.(推薦)
方案一採用直連方式,需要修改業務**,業務改動比較大;
方案二避免直連,通過proxy模式來進行業務和監控平台互動,可以避免業務耦合,無需業務**修改;
監控分類:
指標類日誌類
鏈路層面(高階層面)
具體監控內容根據應用又可以劃分為:
應用runtime
中介軟體db
作業系統runtime
各個層次取樣指標.鏈路,黑盒時才使用perf等命令.
解決方式:
針對不同的問題狀況,基本可以分為兩種
突發性:
觀察業務流量,業務日誌,看問題**,再做具體關聯.
定時出現:
觀察固定點監控,一般是定時任務,觀察流量,請求.
其中突發性的問題排查比較麻煩,因為你無法找到問題規律,如果監控指標不完善,很難進行問題分析,只能完成監控指標後,等待下次問題再次發生;
而定時出現的問題排查相對簡單一些,因為有規律可循,問題較好定位,一般解決較容易些;
解決方式一般步驟:
top free,觀查關鍵指標.
看日誌,分析一些問題,關聯應用,確定具體是什麼引起的
補充檢測指標.
觀察外部訪問
具體分析指標參考:
一般非緊急排查方案
celery 線上問題
專案中使用celery 去做非同步化處理。針對不同的訊息佇列都會啟動8個worker去消費。啟動入口是supervisor,拉起django 的指令碼。再由指令碼去拉起所有的消費程序。線上celery 容器不停的掛死。通過監控可以看到記憶體過一段時間就會到達記憶體配置值。這時候專案跑不動。htopm...
線上問題排查
問題排查方 長期改進建議 由於業務應用 bug 本身或引入第三方庫 環境原因 硬體問題等原因,線上服務出現故障 問題幾乎不可避免。例如,常見的現象包括請求超時 使用者明顯感受到系統發生卡頓等等。作為乙個合格的研發人員 技術人員 不僅要能寫得一手好 掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能...
PHP FPM線上狀態分析
一 php fpm狀態分析 1 啟用php fpm狀態分析 pm.status path status 2 nginx配置 server 3 重啟php fpm與nginx 4 狀態檢視 curl pool www process manager dynamic start time 14 may ...