排查過程:
1.檢視manila的日誌,api.log、scheduler.log、share.log,排程日誌最具參考性,但是顯示建立成功(實際狀態為creating),排到share時出現大量報錯
get all share usage failed:
2.檢查後端儲存,節點均正常
排查過程:
1.關閉其中兩個manila節點的服務(我們是三颱的集群),只用當前節點建立時,成功。轉下一台,關閉其他兩個節點,依次排查,發現第二個節點建立share時故障,又出現creating狀態
2.df -th 檢視,發現沒有將所使用的儲存mount到本地,懷疑mount沒有成功是因為manila使用者的免密互信沒有做,到使用者目錄下未發現能免密到nfs節點的金鑰
因為manila的伺服器到nfs集群是做了免密的,遂將root的金鑰copy到了manila的家目錄下,重啟manima服務後解決。再開啟所有manila節點的服務,建立share再未出現問題。
記週日一次故障意外
記週日一次故障意外 找了waf工程師問,並且我這裡也在同步測試,tcping 網域名稱沒返回,不得不 ctrl c 中斷退出 說解析異常,222這個位址不通,然後給我們明確回覆說 47.91.170.222不是waf的入口 ip,切別的ip是沒用的 因為解析異常之後,我是有叫他切到別的能用的waf ...
記一次Postgres CPU爆滿故障
公司專案測試環境呼叫某些介面的時候,伺服器立即崩潰,並一定時間內無法提供服務。第一反應是伺服器需要公升配啦,花錢解決一切!畢竟測試伺服器配置確實不高,2cpu 4gib,能幹啥?不過問題是今天突然發生的,而且說崩就崩。憑著嚴謹的態度,還是要刨根問底地找下問題。記憶體占用並不大,忘記截圖了,反正看下來...
記一次緊急故障的維修
很抱歉,本來想寫一篇很有特點的文章給廣大午飯,當我完成1 2的時候才發現文件丟失了。於是還得重頭來過,寫一篇短文來給一些新技術人員提供乙份參考經驗吧。本文沒有什麼高深的技術內容,但是也是乙份經驗的分享。週六接到公司的緊急 公司伺服器出問題了。於是火速從家裡趕到公司。才發現是出了大事。公司機房的一台空...