線上服務異常排查

2022-09-14 21:57:16 字數 1720 閱讀 8435

相關指令:

tail、cat、less 、grep 、wc、sed、split

#

常用日誌查詢

#滾動載入日誌

tail -f

***.log##

less ***.log

#檢視日誌 配套使用過濾關鍵字排查問題

cat -n ***.log |grep '關鍵字' (-a|-b|-c) 行數

#日誌分割擷取便於定位問題

#使用sed 指令碼操作檔案

#按照時間點進行分割

sed -n '/2021-03-19 05:00:00/,/2021-03-19 05:15:00/p' ***.log

#按照行數進行分割

sed -n '10,100p' ***.log

#使用split進行分割日誌

#按照每個檔案1000行進行分割

split -l 1000***.log

#按照每個檔案1000行進行分割 指定檔案字首

split -l 1000***.log split_

#按照每個檔案1000行進行分割 指定檔案字首 -d 表示指定字尾為數字 -a 4表示 4位數字

split -l 1000 ***.log split_ -d -a 4

相關指令:

lsof、netstat 、ping、telnet

#

嘗試ping通網路

ping 192.168.7.127ping newrank.cn

#嘗試檢測是否能夠訪問對應埠(前提是對應服務的ip和埠是開放的)

telnet 192.168.7.37 8225

#檢測指定埠是否開啟

lsof -i:8225

#檢視當前伺服器已開放的埠號(也可以配合grep查詢指定的埠開放情況)

netstat -ntulp

相關指令:

top、free、df、du、ps

#

查詢當前程序記憶體cpu等消耗情況

top#

檢視當前伺服器記憶體情況 -m

free

#查詢當前伺服器磁碟情況 一般配合 -h 使用可讀性更強

df #

查詢指定的目錄或檔案所占用的磁碟空間。 一般配合 -sh 使用檢視整體檔案情況du#

程序檢視 常用配套 -ef -aux -a -u grepps#

檢視程序樹

pstree

#

檢視當前消耗cpu最大的程序

top

#嘗試殺掉該程序

kill -9pid

#若殺死程序後,程序又重啟了,查詢該程序的父程序(ppid)

cat /proc/pid/status

#嘗試殺死父程序再殺自程序

kill -9 ppid & kill -9pid

#若存病毒依然挺拔,找出程序對應的執行啟動檔案

ls -l /proc/pid/exe

#找到對應執行檔案嘗試刪除該檔案

rm -rf ...

#再次殺死病毒程序

kill -9 pid

線上服務宕機問題排查思路

出現線上問題的時候,緊張在所難免,有一篇文章講解新手與老手處理線上問題的差別 新手遇到問題後,都是忙於排查問題,這個是怎麼回事 怎麼突然宕機了 老手會首先想 是否有服務降級策略 怎麼快速恢復服務 重啟吧,90 的問題能夠靠重啟解決 是不是上游或者下游有異常 在分布式系統橫行的今天,大部分故障可分為一...

線上問題排查

問題排查方 長期改進建議 由於業務應用 bug 本身或引入第三方庫 環境原因 硬體問題等原因,線上服務出現故障 問題幾乎不可避免。例如,常見的現象包括請求超時 使用者明顯感受到系統發生卡頓等等。作為乙個合格的研發人員 技術人員 不僅要能寫得一手好 掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能...

線上故障排查(2019 12 02)

背景介紹 一 背景介紹 二 排查過程 服務列表 服務名稱 介紹ms crf 主應用ms base org 使用者服務 ms hrpaccoint 賬號服務 主應用ms crf專案新增使用者報錯,經過查詢服務日誌是呼叫ms base org使用者服務時候報 系統錯誤 查詢ms base org服務日誌...