聽了裴丹教授關於《基於機器學習的智慧型運維》演講之後的寫下的乙個筆記。今天來看, 還是有不少啟發, 分享給大家, 對細節有興趣的童鞋可以去看演講實錄。 在本文末尾附了相關鏈結。
基於機器學習的智慧型運維
講師: 裴丹
概述值得工業界運維工程師關注的頂級學術會議
智慧型運維歷程
基於專家庫規則 -> 機器學習 -> 深度學習
智慧型運維如何做好
機器學習本身有很多成熟的演算法和系統,及其大量的優秀的開源工具。 如果成功的將機器學習應用到運維之中,還需要三個方面的支援: 資料, 標註的資料, 應用。資料:網際網路應用本身具有海量的日誌。需要做優化儲存。 資料不夠還需要自主生成。
標註的資料: 日常運維工作會產生標註的資料。 比如出了一次事件後,運維工程師會記錄下過程, 這個過程會反饋到系統之中, 反過來提公升運維水平。
應用: 運維工程師師智慧型運維系統的使用者。 使用者使用過程發現的問題可以對智慧型系統的優化起正向反饋作用。
kpi異常檢測系統的實現
運維人員判斷kpi曲線的異常並標註出來, 系統對標註的特徵資料進行學習 。(典型的監督式學習)
挑戰和解決方案
整體設計
多維度搜尋日誌分析框架
從多維度資料找出問題,然後優化。 利用到機器學習中的學習決策樹的模型。
每天日誌來了之後,輸入到機器學習決策樹的模型裡面,分析出每天高響應時間的條件,跨天進行分析,之後再去做一些準實驗,最後得出一些結果。
其它應用異常檢測之後的故障定位
故障止損建議
故障根因分析
資料中心交換機故障**
海量syslog日誌壓縮成少量有意義的事件
基於機器學習的系統優化(如tcp執行引數)
總結機器學習的目標是: 自動化那些知其然,不知所以然的運維技能, 成為運維人員高效可靠的助手
更好的應用機器學習:特徵選取的時候,早期可以用一些全部資料+容忍度高的演算法,如隨機森林,還有特徵工程、自動選取(深度學習);不同機器學習演算法適用不同的問題;多和學術界討論。
從現有的ticket系統提取有價值的資料: ticketing系統作為智慧型運維的一部分來設計
智慧型運維到智慧型運營
資源列表
基於機器學習的智慧型運維
運維學習第十四天(基於Python常用運維工具)
自動化運維工具ansible是一款強大的配置管理工具 定時任務模組apscheduler apscheduler不是乙個守護程序或服務,其自身不帶有任何命令列工具,主要是在現有的應用程式中執行,為我們提供了專用排程器或排程服務的基礎模組。執行遠端命令paramiko 分布式任務佇列celery 是乙...
運維人員麾下的機器學習「小徒弟」
機器學習已經是智慧型運維的重要趨勢,並將在今後若干年得到快速發展。運維管理結合最新的機器學習領域的進展,將為智慧型運維在今後若干年帶來質變。apmcon運維自動化專場是當天參會人員最多的內容專場,參會者場場爆滿。csdn記者會後有幸採訪到了該專場演講的清華大學計算機系副教授裴丹,和裴教授 了他在機器...
力維雲曾濤 基於共享概念構建的力維雲智慧型運維服務
在雲計算 大資料 物聯網和移動網際網路時代的今天,企業的it系統面臨的運維管理難度和複雜性越來越高,投入也越來越大。例如,某企業的it機房,由於缺乏有效的運維管理,導致穩定性極差,隔三差五的出現故障,嚴重影響業務的正常開展。再例如,某企業的資料中心,由於缺少智慧型化的運維管理和監控系統,不但給技術人...