隨著資料中心建設的規模不斷擴大,新技術迭代更新,承載資料中心業務的網路變得異常複雜。為了適應資料中心業務的發展,資料中心網路也在不斷更新與變化,給運維工作帶來了極大的難度。資料中心宕機事故也難免發生,這不僅增加了資料中心運維人員的工作量,更重要的是給資料中心帶來了巨大的損失,就連全球知名的網際網路巨頭也經常享受這般「待遇」。
網際網路巨頭宕機不斷,運維工作成難題
5月3日凌晨3點43分開始,微軟azure在全球範圍內出現了大面積宕機,整個過程持續了將近2個小時,直到5點30分才完全恢復。受azure宕機影響,包括microsoft 365,dynamics和devops在內的微軟主要服務均出現使用問題。
6月25日訊息,亞馬遜在官網證實雲計算服務出現了宕機,導致部分網路使用者和多個aws區域的網路連線受到了影響。出現故障的節點在aws美東1區,共計33個服務受到影響,其中9個處於完全中斷狀態。
宕機事故頻發,運維難度「更上一層樓」
一次次宕機事件證明了資料中心運維工作的重要性,但似乎不能避免。如今隨著科技的進步萬物互聯時代的到來,資料中心作為重要基礎設施發揮著重要作用,雖然資料中心在國內的發展只有十多年的時間,但已經從只有ups、空調和it裝置的普通機房時代,進入到囊括網際網路、大資料、ai、雲服務等全方位服務、動輒擁有數萬機櫃,自然冷、風牆、水下資料中心、液冷伺服器等新技術不斷被創造和應用的新時代。這樣一來,運維管理面臨著更大的挑戰,運維難度也「更上一層樓」。
首先,超大規模的資料中心帶來的人員、組織和效率的變化。以前萬平公尺以內的資料中心,人工巡檢一次2-4小時,現在數十萬平公尺,需要更多的運維人員分布在不同的責任區,增加了管理的難度和成本;其次,電壓等級提高,安全風險增加。以往運維人員接觸的是低壓,現在供電裝置、發電機、冷機都是高壓供電,維護安全要求提公升;此外,規模集中,導致風險集中,事故影響更大。例如上文中談到的資料中心宕機事故,導致全球大面積的服務和應用中斷,損失慘重,因此運維管理的壓力超前。
減少人為失誤,提公升運維管理的專業技能
據資料調查顯示,資料中心的宕機事故70%是由人為失誤造成的,因此在資料中心規模不斷擴大的同時,運維人員要通過提公升自身的技能和專業水平以應對資料中心意外事件的發生:
彌補人工運維不足,智慧型運維應運而生
linux
命令大全:
mysql審計外掛程式 運維不在背鍋
假設這麼乙個情況,你是某公司mysqldba,某日突然公司資料庫中的資料被人為刪了。儘管有資料備份,但是因服務停止而造成的損失上千萬,現在公司需要查出那個做刪除操作的人。但是擁有資料庫操作許可權的人很多,如何排查,證據又在哪?是不是覺得無能為力?mysql本身並沒有操作審計的功能,那是不是意味著遇到...
產品經理真的是 背鍋俠 嗎?
我經常可以看到產品經理們在深夜發出一些激勵人心的文字,例如 由於自己考慮不縝密引發了需求變更,進而導致了開發同學在深夜還在加班敲 自己十分自責內疚,不過最後產品還是順利上線了.每每看到此,我是又開心又擔心,開心的是產品經理們的職業態度,擔心的是產品不管最後成還是不成,似乎都已經注定了產品經理都會成為...
產品經理真的是 背鍋俠 嗎?
我經常可以看到產品經理們在深夜發出一些激勵人心的文字,例如 由於自己考慮不縝密引發了需求變更,進而導致了開發同學在深夜還在加班敲 自己十分自責內疚,不過最後產品還是順利上線了.每每看到此,我是又開心又擔心,開心的是產品經理們的職業態度,擔心的是產品不管最後成還是不成,似乎都已經注定了產品經理都會成為...