測試命令:
fio -name=iops -filename=/root/testfio -ioengine=libaio -direct=1 -bs=4k -size=4g -runtime=60 -numjobs=2 -thread -rw=write -group_reporting -time_based
兩台同配置伺服器,同樣的測試命令,iops相差近40倍:
a伺服器平均iops=1000+:
b伺服器平均iops=40000+;
在a伺服器上用blktrace分析,發現a的d2c最大耗時902ms,極為不正常;b的d2c耗時最大為40ms,比較正常:
懷疑a伺服器raid卡或磁碟有異常,導致d2c耗時較高。檢視a,b伺服器raid卡,磁碟資訊,發現a伺服器raid卡的flash、超級電容均不在位,所以懷疑a伺服器因此導致了raid卡的write cache功能是關閉的:
經確認確實如此,a是關閉的,b是開啟的:
./sotrcli64 /c0 show all
a: rwtd //wt=write through, d=direct io(讀方向)
b: rwbd //wb=write back, d=direct io(讀方向)
將a的raid卡write back開啟(./storcli64 /c0 set wcache=awb),fio測試iops恢復與b一致, 其實最終還是需要替換a的raid卡為flash、超級電容在位的raid卡,這樣開啟write cache功能才能保證掉電安全。
記一次線上問題排查
這次線上問題來的比較突然,影響也大,用部落格記錄下整個過程,也當作是對這次事故的一次總結歸納。day1 2018年06月21號上午10點,收到運營同事通知,http com api 訪問量劇增,日誌量達到80g 天,而且有上公升趨勢。運營同事讓我們排查,這種訪問是否正常。運營統計訪問量 收到通知後立...
記一次前端bug排查
前言 時隔三年,終於記得要找回賬號密碼開始寫筆記了,這周剛加入了乙個後台管理系統專案,測試反饋系統重新整理時經常會直接登出,嚴詞要求解決這個 重大 bug,so尷尬。更嚴重的是發現系統在ie上直接登不進去,嬸可忍叔不可忍,於是我開啟了苦逼的尋bug之路。既然是登出了,當然會有登出請求,chrome重...
記一次xxljob異常排查
我們使用開源的xxljob封裝了乙個job服務作為平台的job元件。有乙個專案組生產上總是隔些天就會有一次異常發生,排程失敗,且沒什麼報錯資訊。jobadmin 執行器服務都是三颱伺服器集群部署,且資料庫是三颱集群讀寫分離部署。後排查發現如下 失敗的那次任務時間點上排程時,執行器服務列表是空的,導致...