使用雲監控和函式計算,秒級恢復故障

2021-09-13 11:38:57 字數 2263 閱讀 9032

雲監控發布新feature,打通事件中心和函式服務,可以實現秒級故障恢復。

當ecs宕機時,在幾秒內實現eip自動遷移至另乙個健康的ecs例項,快速故障恢復,避免損失。

雲監控之前推出了事件中心,定位於,將阿里雲上發生的對使用者有影響的事件,集中起來,統一展示,統一管理;同時,__可以實現在雲產品異常事件發生的第一時間,對使用者廣播通知,同時打通了事件與函式服務,在事件發生時觸發函式計算的執行,快速實現諸如eip遷移,slb頻寬擴容,slb摘掉故障伺服器等操作,以實現故障的快速恢復__。

在這個架構中,雲產品提供各類事件,使得整個場景能夠有公尺下鍋;雲監控在這個鏈路中,起到了樞紐的作用,有效串聯了各雲產品的事件和函式計算,再通過函式計算串聯到各雲產品的管控api,使雲產品之間可以有效的聯動。

故障發生》雲產品事件》雲監控廣播》觸發函式計算》雲產品管控api>故障恢復

關鍵元件:雲產品異常事件和運維api

ecs作為先鋒產品,率先開放了12個對於使用者極其重要的運維事件,使得基於事件的自動故障恢復可行。8月份,ecs還將繼續開放更多的事件。

▪ ecs目前開放的系統事件

更多事件詳情:

關鍵元件:雲監控

雲監控是阿里雲的核心基礎服務之一,服務了近百萬企業使用者。

雲監控產品的核心目標是,幫助企業使用者提公升服務可用率。降低mttr-平均故障時間。

關鍵元件:函式計算

阿里雲函式計算(function compute)是乙個事件驅動的全託管計算服務。通過函式計算,您無需管理伺服器等基礎設施,只需編寫**並上傳。函式計算會為您準備好計算資源,以彈性、可靠的方式執行您的**。更棒的是,您只需要為**實際執行消耗的資源付費 - **未執行則不產生費用。

計算機有效性的表示,它是在一段相當長的時間內, 計算機的可用時間與故障時間,維修時間及可用時間總和比。

簡單理解就是:mttr(平均故障恢復時間)/mtbf(平均故障間隔)的比值。

如上所示,提公升可用率,一是降低mttr,二是提公升mtbf。降低mtbf和提公升mttr的效果一樣,但是代價卻很不一樣。尤其是在雲時代,單點的錯誤非常常見,故障難以避免。一方面使用者需要自己設計高可用架構,提供適當的容錯,另一方面,也需要快速的故障發現和快速的故障恢復。

1,及時的發現故障,並廣播通知

2,在可控範圍內,快速的自動化的恢復故障,

通過事件中心的廣播,快速發現故障,並廣播給使用者

雲監控作為阿里雲的基礎服務,推出了事件中心。 產品定位於,將阿里雲上發生的對使用者有影響的事件,集中起來,統一展示,統一管理,讓使用者可以方便的了解這些事件,這些事件通常都是對使用者有比較嚴重影響的事件,比如:ecs宕機,hang機,rds主備切換,slb證書過期,slb丟包等。事件發生後,可以在秒級內對外廣播通知。讓使用者及時的了解故障發生,以便作出迅速反應。

故障自動恢復的風險和可行性

自動化的故障恢復通常伴隨著相當高的風險,要非常謹慎;但是,通常大部分的故障都有相似性,符合28原則,80%的故障是由於20%的常原因導致, 對於這20%的高度一致的故障,迅速採集自動化的恢復措施,將有助於幫助使用者快速的恢復故障。

當然,自定義的可程式設計的故障恢復將有助於使用者定義自己的healing action。基於阿里雲的函式計算服務,可以輕鬆實現這一靈活性。同時,函式計算服務,也會提供諸多標準化的模板,比如,slb頻寬調整,eip遷移等,使用者只要套用,輕點幾下滑鼠,即可以輕鬆實現。完成以下場景的自動化運維:ecs宕機時,幾秒內完成eip遷移到另一台ecs;在業務高峰時,迅速的調整頻寬,以適應業務的需求。

以上場景,基於'雲產品事件》雲監控》函式計算'這個鏈路,可以秒級的完成,從而快速的恢復故障,從而提公升使用者服務的可用率。

說了半天,看一下事件中心的真面目

未來,不只是系統事件,業務自己的異常事件, 也可以支援觸發函式計算,這將大大拓展函式服務的價值邊界,帶來更多的可能性。

這一切,都是為了更好的可用性。

閱讀原文

c 計算程式執行時間 毫秒級和秒級

1.毫秒級 寫乙個標頭檔案 include include using namespace std class timer timer void settime void gettime private typedef chrono high resolution clock clock typed...

企業如何規劃和使用雲計算平台?

鑑於對公有雲的種種擔心,很多有實力的企業都想自己構建基礎設施雲計算平台以供自己使用。但很多人對如何規劃雲計算平台有著很大的疑惑,因為這個平台包含了很多的技術,涵蓋很多領域,對於雲平台的規劃和設計者,該關注哪些重要的方面呢?我們有幸參與過幾個公有雲平台的設計和實施,下面分享一下我們的一點心得,權作參考...

使用遞迴函式,計算1 2 3 n的和

方法1 for迴圈 n int input 請輸入乙個正整數 sum 0 for i in range n 1 sum i print sum 方法2 遞迴呼叫 n int input 請輸入乙個正整數 def sum n if n 1 return 1 return sum n 1 n print...