何執行乙個龐雜的機房,進行無數的主動和被動的操作,同時避免錯誤導致的資料中心故障?
以終為始
以終為始是一種以結果為導向的思維方式,提示人們在做事情前要先明確做事情的最終目的,也就是「不忘初心,方得始終」。資料中心的終極目標是支援業務系統的不間斷執行。在接手乙個資料中心的運維任務之前,我們首先需要明確業務連續性目標,然後才能制定相應的運維策略。
以人為本
70%的資料中心故障是由人為造成的。與此同時,即使有最先進的監控系統,資料中心內無論主動保養操作,還是應急反應,都還需要依賴於人員的最終決策和操作。所以,配備足夠的人員、有責任心、經驗豐富的人員、對於資料中心的安全執行至關重要。
培訓與學習
學習是一種修煉。有一種說法「最好的運維團隊只不過是犯了足夠的錯誤就修煉出來的」。資料中心基礎設施牽涉到電力、暖通、弱電、消防、建築等諸多專業,對於資料中心運維團隊來說,需要學習的專業知識非常多。同時,每乙個資料中心的配置和特定的操作流程都不完全相同。因此,培訓與學習應該成為運維團隊管理的乙個重要組成部門。
建立管理體系
資料中心基礎設施的運維管理工作的管理物件包括整個龐大的基礎設施、運維團隊、服務物件(it部門或者idc客戶),是一項系統性很強的工作,需要建立起乙個管理體系。在整個管理體系中最重要的三個方面是裝置保養體系、與所有相關部門的溝通機制、以及支援整個資料中心生命週期管理的財務預算體系。
規範操作流程
任何規範化的企業管理,都不可避免地需要引入流程,資料中心運維管理也不例外。完全基於個人經驗和判斷的操作,往往隱藏著重大的故障風險。資料中心就是要強化流程管理。任何重要的操作,必須嚴格按照流程執行。建立流程文化是資料中心規範化管理的乙個重要環節。資料中心最重要的三類流程是標準操作流程(sop),維護保養操作流程(mop),和應急相應流程(eop)。
動態管控
除了之前提到的管理體系和操作流程這些相對靜態的工作以外,資料中心還需要進行動態的管控。近幾年,it負載的動態性表現得越來越明顯。一方面,it裝置的增加速度比較快。新的業務系統上線可能導致it負載在短期內有較大的增加。另一方面,企業大量採用虛擬化技術以後,可能會出現機房內各機櫃的it負載在一天範圍內有較大變化的情況。基礎設施運維團隊需要針對這種it負載的動態性作出相應的對策。
持續改善
大型資料中心的出現只是近幾年的事情。當資料中心超過一定規模的時候,管理變得複雜,已經超越原來簡單的依賴於少數運維人員的責任心的時代,需要的是完整的管理思想和方**。國內資料中心基礎設施運維體系的成熟度大致處於三個等級的狀態:基礎級、成長級、文化級。
資料中心運維指令碼的力量
運維是資料中心生命週期中持續時間最長的一部分,隨著資料中心建設規模和複雜度的增加,運維的工作變得更加繁瑣。在運維的工作中,有相當大部分工作都是重複性的指令行操作。所以,不少的運維工程師研究出不少提公升工作效率方法,減少人力成本,這就是指令碼。將一些重複性的 邏輯關係明確的操作工作通過指令碼下發來完成...
關於資料中心運維管理概述!
資料中心作為資訊與資訊系統的物理載體,目前主要用於與it相關的主機 網路 儲存等裝置和資源的存放 管理。只有運維好乙個資料中心,才能發揮資料中心的作用,使之能更好地為業務部門提供強大的支援能力。本章從it服務商的角度對資料中心運維管理進行系統的介紹,其出發點在於運維的精確控制 管理水平和服務質量的持...
IDC資料中心運維的 風火水電
本篇介紹下資料中心運維管理的 風火水電 1.風 空調製冷,專業伺服器機房內溫度常年保證 22度左右,保證伺服器長期穩定執行所需要的散熱溫度環境。2.火消防,專業伺服器機房內有大量伺服器裝置,有大量的強 弱電裝置,伺服器機房消防是相當重要的一部分。3.水 濕度 防潮,專業伺服器機房內大量伺服器裝置對環...