運維心得 如何應對停電

2021-09-01 07:45:04 字數 501 閱讀 8363

運維工作中,經常會碰到停電的事情,有臨時檢修的,有消防演習的(當然最好只是演習),有故障巡檢的。。。

首先,停電前的準備。弄清楚停電的時間以及持續的時間,然後第一時間傳送停電通知和電腦裝置的關閉通知,通知大家要在停電前備份資料並關閉電腦。如果是週末,那麼一些裝置最好在停電之前關閉。那些裝置呢?個人認為,主要是沒有ups供電的裝置、關鍵裝置(核心交換機、防火牆)、有硬碟的裝置。所以一般會關閉一些傳真伺服器、測試伺服器、程式控制交換機等裝置,而對於交換機,如果不是關鍵裝置,就隨它去吧,反正即使出現問題,也不會引起大面積的斷網。

其次,停電後的恢復。當停電結束,需要將之前手工關閉的裝置進行開機,並觀察是否正常啟動。另外,之前一些沒有關閉的裝置,要檢視指示燈是否正常。一般情況下,斷電期間,總有些辦公電腦由於員工自己不關機,恢復供電後出現問題,這些都在我們的預料之中,坦然應對即可。

最後,如果有能力,可以使用zabbix或者其他工具,及時監測關鍵裝置的埠狀況,這樣在平時的工作中,一旦發生裝置故障,你可以第一時間得到訊息,避免做最後乙個知道的人。

SRE Google運維解密 心得

在乙個執行的系統中,出現風險是不可能避免的,而運維工程師的存著便是控制並解決風險。書中提到構建百分百可靠的服務是不可取的,因為乙個服務面向使用者的不止是可靠,還有創新。當可靠性達到一定的數量級後,再花費大量的成本在可靠性上而忽略服務的創新,這種方式得不償失。書中還提到可用性為多少個 9 這個概念 上...

網路運維團隊如何應對最新的黑客威脅

企業網路上的資料存在極高的價值,因此成為惡意黑客覬覦的目標。重大安全事件幾乎已經成為了日常新聞,而網路團隊對現狀負有的責任越來越重。network instruments最近發布了2015年網路狀態研究報告,報告闡述了在網路安全對抗中,技術人員是如何重新分配it資源,並保護網路資料的完整性。其中乙個...

運維思索 運維規範如何生成?

我自己也不斷在想是否應該將這些分享出來,因為都是自己在工作過程中的個人理解,都是野路子。但換個角度,運維的工作並不是簡單的修修補補,而是給業務賦能,讓自己實現價值的,因此接下來的文章更多的是進行落地。運維思索 運維管理與運維自動化一文中我們從運維工作中提取了運維框架 紅色代表缺失 由基礎設施層 資料...