運維大殺器來了!雲上伺服器或實現無人值守

2021-10-09 21:46:08 字數 3183 閱讀 9192

雲原生時代下,企業運維面臨架構複雜化、業務需求多樣化和運維資料海量等挑戰,如何能夠實現精準告警、異常智慧型診斷、根因定位、異常**和異常自動修復,已成為企業數位化轉型的急迫需求。

9月26日,阿里巴巴高階技術專家滕聖波在《gops全球運維大會》上發表了題為《雲上伺服器無人值守與自助服務實戰》的主題演講,分享了阿里雲彈性計算團隊如何利用人工智慧技術賦能運維自動化,實現雲上伺服器無人值守,幫助使用者降低雲伺服器例項管理的複雜性,來保障例項服務的穩定和高效執行。本文根據滕聖波的演講整理。

圖:阿里巴巴高階技術專家滕聖波

01

為什麼需要無人值守

運維是一種服務,既包含基礎設施軟體服務、也包含人力服務,服務的物件是企業中使用基礎設施的業務團隊,而雲計算iaas是一種運維服務,服務的物件已發展為使用雲服務的開發人員和運維團隊。隨著雲計算的廣泛落地,大部分企業開始上雲,當前就有100萬多家使用者的業務執行在阿里雲平台上,阿里雲平台服務的使用者也越來越多。

隨著平台使用者規模的擴大,我們發現平台使用者在ecs例項運維時普遍面臨三個痛點:

為了問題的高效解決,我們需要重人力投入在客服人員方面。為了避免使用者規模擴大帶來的客戶側運維成本的線性上公升,我們開始利用人工智慧技術賦能使用者運維管理。在無人零售、無人駕駛成為趨勢的時候,我們認為未來雲上伺服器也將實現無人值守。

事實上,阿里雲彈性計算產品推出十年,沉澱了眾多ecs例項運維管理經驗和異常「行為」規律。所以依託機器學習的資料驅動,我們通過異常「行為」資料的分析,構建了一套雲上伺服器的無人值守架構,並推出了一系列自助服務,實現了ecs例項的自診斷、自修復、自優化、自運維,幫助使用者降低ecs例項管理的複雜性,從而來保障例項服務的穩定和高效執行。

02

無人值守的自服務實戰

計算iaas的運維工作可以拆分為服務側運維和客戶側運維,服務側運維是雲平台的運維工作,通常對使用者不可見的。主要涉及基礎設施、基礎產品和上層管控三個層面,包括機房、物理裝置的運維工作、資源虛擬化、資源排程、熱遷移等工作。隨著使用者規模的擴大,這些運維工作會越來越複雜。而使用者側運維工作,是對使用者自己可見的。主要是使用者對ecs例項的修改操作和自動化工作,包括擴容、重啟、監控、客服服務、工單反應、資源編排和運維編排等。

我們構建的雲伺服器的無人值守架構為阿里雲平台使用者提供了一系列的自助服務。廣義上看,阿里雲的自助服務囊括了ecs例項本身、例項生命週期管理、系統管理和自動化、市場和生態四個維度,如下圖。

圖:廣義上的自助服務

狹義上來說,阿里雲自助服務為使用者實現了ecs例項的診斷、修復和推薦的功能。當天,阿里雲自主服務已通過例項診斷工具、例項優化推薦、自動修復工具、最佳模板推薦和ecs事件自動化等一系列自助服務工具,覆蓋了80% ecs常見問題,將問題解決的平均週期從幾小時縮短至分鐘級,整個過程無需客服人工參與,無私隱洩漏風險,做到了雲上伺服器的無人值守。未來隨著ai+資料的不斷驅動,ecs例項的診斷和修復將會越來越精準。

例項的智慧型診斷

根據平台的資料統計,使用者在使用ecs例項時主要面臨四大類問題

所以,在智慧型診斷的能力上,我們覆蓋了ecs系統服務、磁碟健康服務、網路健康服務和guest os系統配置等維度,使用者一鍵即可完成例項的智慧型健康診斷。

ecs例項的自動化修復

在智慧型診斷完成後,我們還會為使用者提供ecs例項自動化修復方案,在前者定位問題所在之後,自動化修復能夠在1-3分鐘解決問題,主要完成ecs系統服務修復、網路問題修復和磁碟修復。

僅僅實現自動化修復是不夠的,我們認為自動化修復還應該是透明合規的。我們通過運維編排服務oos提供自動化引擎,通過雲助手命令提供guestos內的執行能力,運維編排服務oos+雲助手命令共同幫助使用者完成自動化修復;同時,我們開源了運維編排服務oos+雲助手命令的**,做到一切修復邏輯對使用者可見;一切修復操作還可以通過ecs例項的映象、快照和資料備份實現回滾;通過阿里雲ram角色控制實現一切許可權可控,通過阿里雲操作審計actiontrail實現一切記錄可審計,做到了真正的透明合規。

03

無人值守背後的ai資料力量

讓我們實現智慧型診斷和自動化修復的,是冰山下強大的技術支撐——ai+資料。依託底層的資料中臺,我們完成了,包括物理機資料、虛擬化資料、網路資料、控制面資料和guestos內資料等資料的採集、清洗、分析和模型的構建;加上ai演算法的不斷調優,我們搭建了使用者畫像、決策樹、**和推薦模型等,從而保證異常診斷和自動修復越加精準和高效。

當前,在整體的ecs自助服務架構中,主要依靠管控監控中心實時監測日誌服務、中介軟體監控、api請求監控以及控制台監控和自助診斷的資料,通過機器學習引擎實現問題預警和處理,進而驅動運維編排服務oos實現自動化修復問題。

通過這套ai驅動的自服務架構,當前ecs實時記憶體異常感知準確率在70%以上,實施**鏈路延時則控制在100s以內;另外融合專家經驗、案例庫和知識庫,我們構建了乙個強大的診斷決策樹,為加快問題的定位和修復提供了強有力的依據。

近兩年,阿里雲彈性計算團隊持續不斷地投入構建異常行為資料集,未來計畫將其演進成為阿里巴巴集團在異常**上的「imagenet 資料集」並進行開源,希望能為異常**在業內的發展貢獻更大的價值。

關注百曉生,笑談雲計算

運維大殺器來了,未來雲上伺服器或將實現無人值守

雲原生時代下,企業的it運維面臨架構複雜化 業務需求多樣化和運維資料海量化等挑戰,如何能夠實現精準告警 異常智慧型診斷 根因定位 異常 和異常自動修復,已成為企業數位化轉型的急迫需求。9月26日,阿里巴巴高階技術專家滕聖波在 gops全球運維大會 上發表了題為 雲上伺服器無人值守與自助服務實戰 的主...

伺服器運維

運維 網際網路運維,通常屬於技術部門,與研發 測試 系統管理同為網際網路產品技術支撐的4大部門,這個劃分在國內和國外以及大小公司間都會多少有一些不同。產品的整個生命週期裡運維的職責重要而廣泛,但運維工程師們的職責不僅限於這部分工作,還需要總結工作中遇到的問題,抽取出相關的技術方向 研發相關的工具和平...

雲伺服器基礎運維與管理

課程介紹 clouder aca專項技能認證 雲伺服器管理運維 如何實現1 3 5 100種可能性?通過學習你可以掌握如何快速地開通一台雲伺服器,並通過管理控制台方便地進行伺服器的管理 伺服器配置的變更和公升級 資料的備份,並保證其可以正常運轉並按業務需求隨時進行配置的變更。開始學習 雲伺服器基礎運...