這週在部署某企業內部防火牆時,因為沒有與企業內部網路運維工程師進行及時有效的溝通,導致業務遲遲沒有上線。服務始終無法發布到公網上。在經過多次測試與排障之後,終於將業務順利上線。
經過長時間在生產環境擔任運維工作,本人也總結了一些排障思路希望可以幫助到苦於排障但又沒有思路的小夥伴們。
1.首先你得有故障,即發現問題。比如說經常會有的什麼服務又沒有起得來,又是什麼服務報錯,伺服器之間遲遲無法連通等等。
2.針對這些故障如果可以找到報錯,我們首先需要分析報錯的內容。因為如果可以正確理解為什麼會報錯,就可以找到故障出現在**。這比你乙個乙個去排查故障要來的快得多。比如說,經常會有的配置檔案寫錯、某些服務沒開啟、埠衝突等等。
3.還有一些故障是由於業務環境所導致的。有可能是硬體方面的,也有軟體方面的。比如說某某公司用的都是比較老舊的伺服器和作業系統,但是公司內部的工程師並不明白便部署了最新的軟體在非常老舊的硬體和作業系統上,導致不相容。或者有些地方在部署作業系統時並沒有最小化安裝,導致其中一些服務成為網路黑客攻擊的物件,等等。
4.當我們無法從報錯和業務環境中找出故障答案時,可以通過比對相關配置檔案的方式進行快速的檢查。我們可以從一些執行良好的伺服器上覆制乙份配置檔案與其進行內容對比,基本上就可以斷定問題是否出在配置檔案上。
5.再者,我們也需要檢查一下服務是否開啟,或者修改過配置檔案卻忘了過載一下配置檔案。這種問題經常是一些剛入門的運維放的錯誤。再者可能某些埠沒有放通,我們可以使用telnet + 埠號的方式去檢查服務是否起來,或者對外埠是否方通。
6.當然如果之前一切都沒有問題,我們也需要考慮是否是生產環境內部的防火牆的規則沒有做,所導致業務無法正常上線。這時候我們就需要增加或者刪掉一些防火牆的規則。
7.我們在排查網路故障時,也可以使用一些命令去排查故障點。就比如說我們經常用到的ping命令,我們可以從ping可以判斷主機之間是否連通或者丟包。當然我們也可以因traceroute的命令去跟蹤資料報的動向。
8.除了以上的思路,運維工程師怎麼能很少的了檢查日誌檔案呢。我們一般會通過一些軟體去定時的收集一些日誌檔案。這樣也會為運維工程師提供解決故障的思路。
有些沒有日誌檔案的服務,我們也可以監控其埠的mac位址對其鏈路進行跟蹤檢視是否故障。
9.一般在小的企業中,如果出現了小面積的網路問題也有可能是交換機出現了故障。如果是出現了大面積的業務故障就非常有可能是核心交換機等重要的網路裝置出現了問題。
10.最後如果當前伺服器非常繁忙,業務量增長導致伺服器資源不夠用。這樣經常會出現有些服務突然掛掉,甚至整個伺服器出現了宕機的情形。
這時我在成產環境排障或者遇到故障的情形,希望可以幫助到正在被故障所苦惱的運維小夥伴們。
生產環境故障
系統執行緩慢 ipmi應該是用於系統管理的遠控程序,雖然這是乙個利用空餘的cpu資源進行一些介面自動調節的任務,但看著佔那麼多的資源還是怕出意外。並且現在已經出了意外 反正不管怎麼樣試試 通過kipmid max busy us值可占用以改變kipmi的排程方式實現降低cpu占用。臨時降低 echo...
生產環境重大故障
今天廣豐生產環境異常,db session數還沒有滿,客戶端就無法登陸銷售系統。而且就連wls控制台也無法登陸 該問題影響可想而知 最後確定是處理了以下 為了便於分析sql執行狀況,給綜管部提交了乙個提案,對連線測試的選項進行了統一關閉。在 kill掉鎖定的connection源頭後,發現所有的物理...
一次生產環境web服務遷移故障總結與反思
一次生產環境web服務遷移故障總結 摘自老男孩培訓內部bbs平台 本文是老男孩老師親自參與幫助學生解決的乙個生產案例,值得博友們學習和借鑑。1 緊急問題發生時的排錯思路借鑑。該生非常有心,觀察的如此細緻,難得一也。2 學生解決問題後的解決總結與反思習慣。該生能夠始終貫徹總結習慣,難得二也。這兩條正是...