相關指令:
tail、cat、less 、grep 、wc、sed、split
#常用日誌查詢
#滾動載入日誌
tail -f
***.log##
less ***.log
#檢視日誌 配套使用過濾關鍵字排查問題
cat -n ***.log |grep '關鍵字' (-a|-b|-c) 行數
#日誌分割擷取便於定位問題
#使用sed 指令碼操作檔案
#按照時間點進行分割
sed -n '/2021-03-19 05:00:00/,/2021-03-19 05:15:00/p' ***.log
#按照行數進行分割
sed -n '10,100p' ***.log
#使用split進行分割日誌
#按照每個檔案1000行進行分割
split -l 1000***.log
#按照每個檔案1000行進行分割 指定檔案字首
split -l 1000***.log split_
#按照每個檔案1000行進行分割 指定檔案字首 -d 表示指定字尾為數字 -a 4表示 4位數字
split -l 1000 ***.log split_ -d -a 4
相關指令:
lsof、netstat 、ping、telnet等
#嘗試ping通網路
ping 192.168.7.127ping newrank.cn
#嘗試檢測是否能夠訪問對應埠(前提是對應服務的ip和埠是開放的)
telnet 192.168.7.37 8225
#檢測指定埠是否開啟
lsof -i:8225
#檢視當前伺服器已開放的埠號(也可以配合grep查詢指定的埠開放情況)
netstat -ntulp
相關指令:
top、free、df、du、ps等
#查詢當前程序記憶體cpu等消耗情況
top#
檢視當前伺服器記憶體情況 -m
free
#查詢當前伺服器磁碟情況 一般配合 -h 使用可讀性更強
df #
查詢指定的目錄或檔案所占用的磁碟空間。 一般配合 -sh 使用檢視整體檔案情況du#
程序檢視 常用配套 -ef -aux -a -u grepps#
檢視程序樹
pstree
#檢視當前消耗cpu最大的程序
top
#嘗試殺掉該程序
kill -9pid
#若殺死程序後,程序又重啟了,查詢該程序的父程序(ppid)
cat /proc/pid/status
#嘗試殺死父程序再殺自程序
kill -9 ppid & kill -9pid
#若存病毒依然挺拔,找出程序對應的執行啟動檔案
ls -l /proc/pid/exe
#找到對應執行檔案嘗試刪除該檔案
rm -rf ...
#再次殺死病毒程序
kill -9 pid
線上服務宕機問題排查思路
出現線上問題的時候,緊張在所難免,有一篇文章講解新手與老手處理線上問題的差別 新手遇到問題後,都是忙於排查問題,這個是怎麼回事 怎麼突然宕機了 老手會首先想 是否有服務降級策略 怎麼快速恢復服務 重啟吧,90 的問題能夠靠重啟解決 是不是上游或者下游有異常 在分布式系統橫行的今天,大部分故障可分為一...
線上問題排查
問題排查方 長期改進建議 由於業務應用 bug 本身或引入第三方庫 環境原因 硬體問題等原因,線上服務出現故障 問題幾乎不可避免。例如,常見的現象包括請求超時 使用者明顯感受到系統發生卡頓等等。作為乙個合格的研發人員 技術人員 不僅要能寫得一手好 掌握如何排查問題技巧也是研發人高階必須掌握的實戰技能...
線上故障排查(2019 12 02)
背景介紹 一 背景介紹 二 排查過程 服務列表 服務名稱 介紹ms crf 主應用ms base org 使用者服務 ms hrpaccoint 賬號服務 主應用ms crf專案新增使用者報錯,經過查詢服務日誌是呼叫ms base org使用者服務時候報 系統錯誤 查詢ms base org服務日誌...