關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁碟被寫滿?為什麼這麼巧,兩個小概率的問題偏偏一起發生,造成保護失效?為什麼我們做了測試演練,然而真正發生問題依然踩坑?」2018杭州雲棲大會主論壇演示現場,阿里雲專有雲事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。
百種異常現場隨機注入破壞系統
繼去年跑了分、斷了電,在9月19日下午的杭州雲棲大會技術主論壇現場,專有雲現場演示穩定性公升級版,在現場搭建的專有雲「企業號」資料中心系統上隨機注入異常搞破壞。該資料中心由8大品牌伺服器搭建,模擬了客戶真實的複雜生產環境,同時現場直播應用便搭載在該資料中心的系統上,在注入異常後將直觀的通過觀察直播是否卡頓來判斷專有雲系統是否真的穩定。
似乎是現場觀眾隨機挑選的異常「破壞力」不足,馬勁一狠心,演示了極端環境下的超級異常——核心ecs集群區域性網路異常且另一台ecs計算資源飽和。「這模擬了業務高峰期伺服器已經超高負載時的網路故障,這類情況極易引發系統雪崩,一旦雪崩恢復時間很長。」馬勁解釋道。演示現場阿里雲負載均衡的快速隔離及彈性伸縮服務智慧型資源分配及時發揮了作用,現場應用卻快速恢復正常,觀眾席響起熱烈的掌聲。
打磨產品穩定性,阿里雲沒有好辦法只有「笨辦法」
阿里雲專有雲承載著眾多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味著什麼,因此打磨穩定性是專有雲不渝的追求。然而,過去大部分系統都搭建在diy系統上,不具備全系統演練的條件,而今天在阿里雲這個「雲計算機」上,可以在準生產環境下進行全方位立體化的演練。
混沌工程是專有雲針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿里雲異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷注入打磨系統,以提前幫助客戶排除系統中80%的故障。當別人還困擾於硬體層級的異常發生該如何處理時,阿里雲專有雲已經在用更深層級的組合異常打磨系統。這一切的投入和執著錘煉穩定性都只為持續給客戶提供更穩定更可靠的產品。
現實往往不按照故事的劇本走,阿里雲沒有「好辦法」只有笨辦法,那就是引入『混沌工程』理念,在**的生產環境中做千倍高頻的異常注入,對不符合預期的系統反饋不斷優化,從而持續打磨穩定性,助力客戶業務穩定性提公升。
專屬小遊戲,《我和老闆,那些不可描述的需求》等你來~
黑科技揭秘 百種異常隨機注入,專有雲為何穩如泰山
關鍵應用服務中斷引發一系列連鎖反應,起因僅是一塊磁碟被寫滿?為什麼這麼巧,兩個小概率的問題偏偏一起發生,造成保護失效?為什麼我們做了測試演練,然而真正發生問題依然踩坑?2018杭州雲棲大會主論壇演示現場,阿里雲專有雲事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。百種異常現場隨機...
揭秘國慶聯歡活動上的利亞德「黑科技」
絢爛奪目的焰火表演 璀璨無比的光藝展示 國內首次千人交響樂和千人合唱 昨夜,在天安門廣場成功舉行的慶祝新中國成立 70 周年聯歡活動創下諸多紀錄,為全球觀眾奉獻了一場極具震撼力的視聽盛宴。同 2009 年國慶聯歡相比,10 年間,新的聲光電及資訊科技的變革,為國慶 70 周年聯歡帶來了巨大的變化。正...
直擊數博會,聚輝電子5大黑科技揭秘
在特殊的 2020 年,要數被提及最多的三個關鍵詞,一定少不了 辦公 上課 訪談 看房 看展 上可以完成很多事情,但沒了人氣的學校 辦公室是不完整的,沒了人氣的展會是沒有靈魂的。值得開心的是,原本的展會終於要回來了 2020 亞洲數字展覽展示博覽會將在 8 月 3 日 5 日廣州中國進出口商品交易會...