AIOps做根因定位靠不靠譜?

2021-10-10 20:52:22 字數 2444 閱讀 8841

昨晚跟浙江移動曉徵總暢談很久,從狹義aiops做根因分析引出,聊了aiops的作用,跟sre的關係,實踐的總結,有很多共鳴,也碰撞出很多有意思的觀點。

結合曉徵總整理的,和我記錄的,形成一篇文章,算是拋磚引玉,在aiops經歷了幾年實踐的基礎上,再次**下aiops這個話題。

以下是正文:

和兄弟們和以及江湖上的專家研討了一番,居然哭笑不得地得出乙個初步結論,拋拋磚:狹義上的aiops存在嚴重泡沫

幾個觀點:

一、靠aiops做根因定位靠不靠譜?

ai無論基於機器學習還是深度學習,都依賴於大量的資料。但運維場景往往需要從一次故障中汲取改進的力量,而這個是典型的小資料量建模,需要大量的常識、經驗,需要用到歸納和演繹能力,而這些恰恰是人類的優勢,現階段的ai還難以支撐。

所以,實踐中,在故障時,再依賴什麼aiops做根因定位,實踐中沒有成功過。原因也不難理解,因為每次故障的原因,都會跟之前不同,讓ai去識別乙個從來沒見過的故障,也基本不太可能。

舉個例子,如果讓ai從中識別出乙隻貓?但是你從來沒有給ai演算法足夠的貓的樣本去學習,怎麼能讓ai知道什麼是貓?

故障時的原因也是如此,如果遇到乙個從來沒觸發過的因素,這時靠ai在這麼複雜的體系裡去識別這個因素就是根因,基本不太可能。

可行思路是什麼呢?通過ai快速識別出區域性最小粒度的故障,比如磁碟故障,cpu高,程序響應異常等,或網元粒度的故障,比如資料庫異常、伺服器異常、dns異常等;

然後咋做呢?目標是不定位,不處理,要讓軟體自身具備自癒能力,也就是反脆弱的能力,切換、限流、熔斷,確保最快的速度隔離掉這些區域性問題。

注意這一點需要站在客戶感知視角,從應用到基礎平台南北向端到端協同,來確定最佳隔離方案,單獨站在網元視角來做,有效果,但一定不徹底。

這也是我常說的,雲化實現了架構分層解藕,康威推進了組織內聚自治,但沒有端到端的協同機制(架構設計上,故障響應上),這些組織將迅速從屠龍勇士蛻變成惡龍。

二、狹義ai效果最好的是感知,是**

運維中的關鍵一環(**值密度)是故障應急,這個階段又分為感知(眼)、分析(腦)和處理(手)三步。現階段狹義ai效果最好的是感知(**本質上屬於感知plus)。

分析這一步遇到了二十年沒突破的cmdb哲學問題,我們已經基本放棄了,同時也已經有其他路子可以替代,實操效果還不錯,但主要還是用到廣義ai(人類主導的基於規則的建模)而不是狹義ai。

第三階段主要是sre的**作用,ai基本用不上。此外,運維數位化、智慧型化、研發化轉型的基礎-資料匯通+能力融通+組織拉通,也同樣是依賴於人的因素啊。

第三、aiops、devops和sre是什麼關係?

ai是眼睛,發現問題,通過sre的ops手段、提供架構上的逃生通道,通過sre的dev手段,讓線上**真正解決問題。

浙江移動提出的aiopsdev就是這個思路,通過ai發現問題,用sre作為dev的手段提供**化的自動化和反脆弱的能力,依靠sre作為ops的經驗和知識創造逃生通道、設定執行規則。

其實我在17年的時候也同樣表達過類似的思路,當時是思考aiops的意義是什麼。當時還寫過一篇文章《ai時代,我們離aiops還有多遠?》,大家有興趣可以看一下。

裡面的這張圖基本表達了aiops和sre的關係,只不過經過業界這三年的實踐,跟曉徵總**下來,中間的rca根因分析這一步,其實是沒有什麼意義的,應該從第一階段可以直接到第三階段。

第四,運維真的會被機器或ai替代嗎?

這種說法,純屬扯淡。江湖上沸沸揚揚人心惶惶的說法什麼運維團隊的人要被機器替代了,什麼運維人員都被砍掉了,什麼阿里雲運維人員只有幾十人啊,人均運維網元數怎麼怎麼高啊。

一部分是真的,被機器替代了一些人,但主要替代的是純簡單可重複操作的人,但大部分是扯淡,因為大量的工作仍然依賴於有經驗的人!

只是這些人不是傳統操作人員,而是具備軟體工程思維、數智化思維、熟悉技術棧、懂得程式設計能力的新型運維sre。其實根據我這邊的實操看,相當部分的傳統二線轉型sre是有可能的。

所以也不必過分擔心什麼運維人員被機器替代的問題。此外,有網際網路公司疑似銷售人員過度宣傳的因素,這些人應該不是真正搞技術的,真正懂技術懂運維轉型的網際網路專家一般還是有節操的,不會胡說八道。

實際上運維轉型以後,看你什麼口徑了,實際上整體大運維人數上公升是常態,但一方面配比變了,有研發和架構能力的人員比例大增強,操作類人員比例下降。

一方面人均戰鬥力大大提公升了是肯定的,雲化以後單網元不穩定了,網元層次多了數量多了複雜度高了,所以以前是拼人肉,現在是拼經驗拼算力拼資料拼**拼機制,單兵戰力當然大大提公升了。

看看美軍就知道了,軍隊數位化,步兵特戰化,看著前面沒幾個兵,問題是看不見的那些人都是作戰體系一環啊,同時戰力大幅提公升。

複雜運維場景下,如何實現分鐘級的故障根因定位

熊亞軍開篇 在超級網際網路公司,隨著伺服器規模都早早邁過 10 萬台量級,加之業務模式的多樣性和 it 架構的雲化遷移,其 it 運維團隊面臨的挑戰與日俱增,常規的系統和經驗都需要不斷迭代更新。首先我們先來看看超級網際網路公司的業務架構示例圖 在超級網際網路公司中,通常不同的層次都由不同的團隊來負責...

常見NuPlayer錯誤log根因

遇到情況是由於 audiooutput getposition 返回err導致 當 nuplayerdecoder 接收到底層codec解碼的第一幀有效資料時,會通知nuplayerrender去open audiosink 才會去new 其 mtrack。故nuplayerdecoder 接收的第...

定位amdu無法使用的根因並解決

環境 oel 5.7 oracle 10g amdu x86 64 現象 我的兩套實驗環境,一套單例項,一套rac,作業系統都是oel 5.7,資料庫都是oracle 10g,上傳同樣的amdu介質。乙個正常,乙個報錯 報錯環境 oracle rac1 server lib amdu amdu sy...