華為雲AIOps實踐全面解析

2021-09-17 06:19:22 字數 2845 閱讀 6877

在如今的雲計算時代,計算的雲化和分布式應用給運維工作帶來了很大的挑戰,讓人海戰術在運維面前失靈,所以基於演算法和機器學習的智慧型運維(aiops) 必將是業務運維場景下的大勢所趨。業界有個說法,公有雲最後的競爭是基於運維能力的綜合競爭。現在各大公有云服務商也都在積極探索 aiops,此次我們採訪了華為雲應用運維域專家,為我們揭秘華為雲的智慧型運維實踐。

\\\\

華為雲很早就在實踐智慧型運維了,包括最早的 iaas 運維,以及近幾年的 paas 運維、服務洞察。只是之前的叫法不是現在談論的「智慧型運維」,而是智慧型監控、應用分析、智慧型分析、自動診斷與調優、自動化運維等,華為雲的 aiops 在 sre 和雲服務中都有應用和實踐。

\\ 前幾年,華為雲主要聚焦在企業雲、私有雲、混合雲等建設,運維能力建設圍繞資料中心,在統一運維架構、運維研發化的基礎上,重點發展運維的標準化、自動化和智慧型化。

\\ 2017 年華為 cloud bu 成立,正式進入公有雲市場。在這個階段,sre 在統一運維架構基礎上,整合了各種運維工具,形成了公有雲管理面的統一運維。與此同時 apm、aom、ces 等雲服務直接面向雲租戶提**用運維能力。

\\ 華為雲專家認為,傳統運維和 aiops 是緊密聯絡的,在資料分析層面二者也有些重疊區域,並且 aiops 也依賴傳統運維的資料基礎、計算處理等。二者之間的區別主要體現在資料規模和實時性上。當雲實體的規模擴大、應用棧的多樣化、應用架構的容器化、微服務化後,運維對使用者體驗管理和業務高可用性越來越不可知性。而雲服務對監測的實時性、反饋控制的及時性、故障**、故障自癒等要求也是 aiops 所擅長的。

\\\\

在華為雲專家看來,針對不同的產品或者專案,構建 aiops 所依賴的關鍵技術有所不同,比如企業資源故障**專案與公有雲上的應用效能監測服務就有比較大的區別。以廣義的 apm 為 it 運維的範圍,一般涉及到以下關鍵點:\\

在華為雲的實踐中,ai 技術主要應用在以下幾個方面:\\

上面幾個方面涵蓋了運維閉環模型:監測感知 – 分析洞察 – 優化控制。

\\ 以傳統運維中最常見的挑戰——告警風暴——為例,靜態閾值、多段式組合閾值、基線化閾值等基於統計計算的方法都難以滿足應用運維的要求了。另一方面,雲化後的應用所涉及計算節點,服務 endpoint、指標等更多,不可能完全依靠人工來設定。這時候基於動態閾值或時序資料行為模式分析的 ai 方法就派上用場了。

\\ 所以 ai 技術首先適合用於複雜的場景中,尤其是各種可能組合數量遠遠超越了人力所能企及的範圍,還比如復合因素下的趨勢**(磁碟壽命、效能指標、容量)、故障定界定位、根因分析等。

\\ 其次 ai 技術在一些時效性要求高的場景中得到應用,比如基於指標、日誌、事件的告警。應用或者系統出現異常後,是需要第一時間通知到運維值守人員的。還比如雲服務的彈性伸縮 (auto-scaling),是需要根據一些監測指標、服務模型、規則以及演算法智慧型地及時做出適當調整動作。

\\ 除了中心化的 ai 技術應用外,資料採集端側(agent)的智慧型化也是乙個重要發力領域,也包括 iot 場景下的邊緣節點(edge node)。在萬物感知、萬物互聯、萬物智慧型的趨勢下,我們可以把訓練好的模型發放到需要的 agent 端。agent 智慧型化可以解決端側更高的響應實時性要求,減少資料上傳的網路頻寬消耗、儲存成本、計算成本等。

\\ 下圖是華為雲面向租戶的立體運維平台,實際上是乙個基於應用運維生態的大解決方案。這種統

一、開放的雲運維平台可以支撐華為雲的底座運維、上百種雲服務的 sla 保障和運維,幫助客戶監測管理部署在華為公有雲上的業務應用。

\\ 在運維工具和平台的構建過程中,華為雲大量採用了開源專案,比如 elk、呼叫鏈有關的 pinpoint、zipkin、opentracing 等規範、statsd 和 prometheus 等資料介面規範、spark、tensorflow、mxnet 等。

\\\\

大資料是 ai 的黑土地,前提是資料量要足夠多。華為雲針對運維目的,主要收集下面這些效能資料:\\

這些資料根據自身特點,選擇不同的儲存方式,比如 cassandra、hdfs、elasticsearch、gaussdb 等。具體處理主要包括:\\

區別於以前的運維,當前把很多指標資料中的一些維度屬性和 iaas、paas 層的基礎資訊結合起來形成面向應用的元資料集,和傳統的 cmdb 有些類似,但粒度更細。其目的是為面向應用的資料分析提供各種可能的「關係網」。

\\\\

aiops 面臨的技術挑戰主要有大量資料的獲取、結合專業領域知識的演算法驗證、多種演算法組合應用、新方法的探索以及服務化的工程化難度。

\\ 有了資料後,針對特定問題域去驗證或者創新演算法就需要領域專家和演算法專家通力合作,找到合適的方法或者方法組合是很有挑戰性的。華為雲在彈性伸縮演算法、事務黑盒分析、基於異常檢測的智慧型告警和呼叫鏈洞察分析等方面採用機器學習進行了探索。

\\\\

儘管在一些子領域或者單點技術上 aiops 獲得了一些進展,運維域 aiops 還有很大的空間有待發展,離真正做到無人值守、noops 還有很大的現實差距。比如複雜大系統中智慧型 rca 分析、可信自癒能力、面向機器理解的無監督學習、智慧型化下沉到端側等都有待業界共同努力。

\\ 華為雲專家認為,it 運維是個很大的範疇,完全不用人工運維,即無人值守只會存在某些特定的小場景下。而從整個系統來看,一定需要人來做更高階的工作,參與者也不會只限於操作者或者管理員,還會涉及 devops、業務主管等。這是乙個融合的世界,真正的有機系統,非黑即白的界線會越來越模糊,未來世界也一定是人主導,而不會是機器主宰的。在應用運維領域,人不會被 ai 簡單取代,而是利用 ai 輔助人類做那些自己不擅長或者不願意做的事情。

\\ 感謝張嬋對本文的策劃和審校。

華為雲AIOps實踐全面解析

在如今的雲計算時代,計算的雲化和分布式應用給運維工作帶來了很大的挑戰,讓人海戰術在運維面前失靈,所以基於演算法和機器學習的智慧型運維 aiops 必將是業務運維場景下的大勢所趨。業界有個說法,公有雲最後的競爭是基於運維能力的綜合競爭。現在各大公有云服務商也都在積極探索 aiops,此次我們採訪了華為...

萬網雲解析全面公升級開放,支援海外IP解析!

基於萬網過去18年來的專業網域名稱解析服務經驗,萬網雲解析新版實現了承載超過300萬網域名稱的全面公升級,它是萬網dns網域名稱解析系統的全新公升級,目前已正式發布上線,詳見萬網首頁 公升級後的雲解析,已經全面對外開放,支援非萬網網域名稱解析,為非萬網網域名稱以及海外ip解析提供免費 智慧型的網域名...

華為雲發布全新DevOps實踐,大幅提公升交付效率

日前,在qcon全球軟體開發大會上,華為雲devcloud發布devcloud on devcloud devops實踐。借助該方案,devcloud得以達成每天10次的高頻發布目標。隨著這些能力的持續增強,devcloud團隊也做自己的第乙個使用者,持續 吃 形成了devcloud on devc...