最近網際網路故障是一件接著一件,僅在5月就發生了多起。網易的骨幹網遇到攻擊導致其遊戲業務受到嚴重影響,由於傳輸光纖被挖斷導致支付寶中斷2小時,緊接著攜程網由於人員誤操作導致網路中斷近12小時。從這些事件中不難看出,所有故障的產生都來自人為或者外部環境因素所導致,而不是資料中心裝置本身。根據以往的統計資料也可以看出,資料中心發生的故障原因中人為因素佔了80%。很多故障都是可以通過加強對人的管理而避免的,而並不是技術本身,導致資料中心故障的因素絕大部分來自外部而非自身,所以要保證資料中心穩定不間斷執行,必須對其生存的外部環境進行各種可能的故障**,以便考驗資料中心的各種應對措施。
我們在資料中心設計上做到了盡善盡美,卻經常忽略人為的因素。資料中心的業務系統是非常複雜的,但越複雜的系統越容易出現人為故障。不管人為故障是無意的還是有意的,都應該極力避免。避免人為故障最好的方法就是加強對操作人的管控,在資料中心執行的過程中,切記不要輕易對裝置引數進行調整和改變,通過設定各種訪問控制列表,不同級別的人訪問的裝置是不同的,在裝置上敲入的命令也要經過命令列授權,沒有通過命令列授權的命令是無法執行的。雖然有這些管理措施,但是還是無法完全避免人為的故障。比如很多時候要進行業務調整,這必然要對資料中心執行引數進行改變,這就和操作員的技術能力強相關,有些操作員對業務的理解能力很強,可以很快做出正確的調整指令,但有些操作員可能就會誤操作,導致業務異常。這些無意的人為故障,那麼可以通過增加操作員的培訓或者讓經驗豐富的人員來執行,通過加強對人員技能的培訓,基本可以減少這類故障的發生。而有意的人為故障更加隱諱,很難避免,畢竟每個人心裡想的外人很少有人知道。資料中心內部包含有大量隱私資料,通過獲取到這些資料中心甚至可以非法獲利,還有可能有些人就是為了報復,這些有意識的操作導致的故障通過管理制度也難以避免。就像這幾次空難,最後確認都是機長的原因,我們無法確知機長的心理活動,所以這種人為故障是最難發現和避免的。為了減少這種故障,只能從感情上去教育,提公升資料中心人員的職業道德感,時常給資料中心人員敲敲警鐘。雖然資料中心故障很少能夠帶來生命上的**,卻可以造成金錢上的嚴重損失,這往往是乙個資料中心工作人員無法補償的,讓資料中心人員知道這樣操作的嚴重後果,從而減少這類有意的人為故障。
故障給資料中心帶來的負面影響是沉重的,但又是不可避免的,任何乙個資料中心都出過大大小小的問題,關鍵是要做好這些故障的預防措施和補救措施,以便將影響降低。資料中心並不怕出故障,怕的是出了故障沒有修復機制,或者無法及時修復,這樣任何乙個小故障都可以演化為重大事故。對於資料中心故障要保持一顆謹慎的心態,警鐘長鳴。
檢視網際網路資料中心有感
12月27 日中午,我去某個 idc 所謂 網際網路資料中心 實地檢視,有所感悟。記得,十年之前,我有乙個朋友,搞 世紀互聯 其實搞的就是 idc。至今,我仍然佩服他的眼光。一般說來,idc就是伺服器集中託管的地方,那裡的 系統管理 軟體很複雜,管理起來,成本很高,得靠 規模 賺錢,實屬不易。但是,...
企業資料中心和網際網路資料中心有何不同
資料中心按照服務物件的不同,可以分為企業資料中心和網際網路資料中心。企業資料中心指由企業或機構構建並所有,服務於企業或機構自身業務的資料中心,它為企業 客戶及合作夥伴提供資料處理 資料訪問等資訊服務。企業資料中心的伺服器可以自己,也可以從電信級機房中租用,運營維護的方式也很自由,既可以由企業內部的i...
移動網際網路帶給我們的世界
我現在能記得的是小時候,人與人之間的溝通是靠運氣,是靠喊話。那是就在自己的一畝三分地里圈地。年齡在稍微大一點,我看到了電視機,一群人圍在一塊兒還在那一畝三分地里圈地。程式控制 出現的時候,我只感到這個名詞這麼新鮮,後來想想還是在自己的一畝三分地里,他只不過是個名字。其實這個世界的變化我不知道而已 忽...