硬碟出故障機房被雷劈，雲服務能不能靠點兒譜？

雲廠商故障宕機這些年來一直不是什麼新聞：

運維失誤、硬碟出故障、機房被雷劈、除錯輸入錯誤指令，不同的失誤會引起不同的 bug，最後同樣導致雲服務故障，造成大額損失。aws 的費良巨集老師回顧雲計算的發展時曾說：「我眼裡的雲計算，就是十年生聚，十年教訓」。故障，一直是雲服務命運的雙生子，每一次故障的陣痛，都是在倒逼雲服務廠商和使用者加速成長，只是這一次對於「前沿數控」這家創業公司而言過於疼痛了。

infoq 認為，在這類雲服務故障的事件裡，雲廠商和使用者都上了寶貴的一課。

對於廠商而言，需要學會的是：

注意 error handling

廠商工程師在寫**的時候都應該捕捉異常，然後做合適的錯誤處理。

盡可能地把動態內容快取起來，甚至靜態化

redis cache、nginx cache、haproxy、cdn 都是把內容快取甚至靜態化的一些手段。儘管多級快取維護起來是個麻煩，但當底層服務出現問題時，它們就是難得的戰略緩衝區。cache 為你爭取到的半個小時到幾個小時幾乎是續命的靈芝，它能幫你撐過最艱難的時刻（，相對從容地尋找解決方案，緊急發布新的頁面，或者遷移服務，把損失降到最低。

故障演習很重要

乙個系統的高可用的因素很多，不僅僅只是系統架構，更重要的是——高可用運維。對於高可用的運維，平時的故障演習是很重要的。facebook 每個季度扔個骰子，隨機關掉乙個 idc 一天。netflix 有 chaos monkey，路透每年也會做一次大規模的故障演練——災難演習。為的就是提公升因對突發故障的應變能力。

充分告知使用者雲計算服務並不是 100% 可靠的

雲廠商在提供雲服務的時候，應該告知使用者雲儲存有極小概率出現損壞或資料丟失，建議使用者自己備份或者購買雲備份。如果不告知或者不充分強調，很多使用者都會以為雲廠商造成資料丟失就要負責賠償其所有損失。

敬畏使用者，妥善處理危機

如果你是乙個技術公司，你就會更多的相信技術而不是管理。相信技術會用技術來解決問題，相信管理，那就只會有制度、流程和價值觀來解決問題。沒有人願意看到問題的發生；但是問題出現後，最重要的解決反思並從中汲取教訓。——陳皓

對於使用者而言，需要學會的是：

檢查核心依賴關係，提公升關鍵性服務的冗餘水平

很多雲服務，比如 aws 自身的系統在構建當中就具備冗餘特性，但要充分使用就會增加大量管理複雜性與成本支出，因為跨環境間的資料同步工作需要由雲使用者負責打理。大多數企業並沒有選擇上述選項，可是單純的資料備份在數小時的短週期內並不能發揮作用。但這卻是乙個值得去做的事。

主動做好備份

根據美國標準 tia-942《資料中心的通訊基礎設施標準》，從可用性、穩定性和安全性分為四個等級：t1，可用性為 99.67%；t2，可用性 99.749%；t3，可用性 99.982%；t4，可用性 99.995%。年平均故障時間也從 0.4 小時到 28.8 小時不等，這意味著每年都可能存在各種原因的不可用。不管雲服務是幾個「9」，其靠譜程度始終不是 100%。使用者需要自己做好備份，在雲服務出現故障時，有可以恢復資料的渠道，而不是像「前沿數控」一樣最終兩眼一抹黑。

寫在最後

此次事件發展至今，眾說紛紜，事件雙方都給出了各自的說法和解釋，怎麼樣去判斷事件的真相和對錯，infoq 在此不做價值判斷，留給大家自己去思考、評價。我們希望大家可以基於事件本身去討論問題，兼聽則明，偏信則暗。

硬碟出故障機房被雷劈，雲服務能不能靠點兒譜？

硬碟常見故障

linux硬碟故障修復

Ceph osd故障硬碟更換

硬碟出故障 機房被雷劈，雲服務能不能靠點兒譜？

硬碟常見故障

linux硬碟故障修復

Ceph osd故障硬碟更換

相關推薦

硬碟出故障機房被雷劈，雲服務能不能靠點兒譜？