1、故障的發現
2、故障的止損
3、故障的修復
4、故障的規避
1、發生了什麼
2、怎麼解決
3、多長時間能解決。
由人力來回答這些問題效率低、不準確、不及時。因為我們要對付的這個系統實在是太複雜了。aiops提高運維生產力的一種方式就是把處理突發故障時的人力分析盡可能的都替換成機器來做。
我們現在有非常多的監控工具,採集儲存了海量的、價值極高的各種監控資料。當遇到突發事件的時候,能夠基於這些資料快速準確做出決策。而處理海量、高速、多樣的資料並產生**值,正是機器學習的專長。也就是說,採用機器學習技術是運維的乙個必然的走向。
具體而言,aiops引擎 中的「異常檢測」模組在檢測到異常之後可以將報警第一時間報給運維人員,達到「故障發現」的效果;「異常定位」模組達到「故障止損」的效果,它會給出一些止損的建議,運維專家看到這個定位之後也許他不知道根因,但是他知道怎麼去根據已有的預案來進行止損,然後再執行自動化的指令碼。
運維子系統之運維節點
運維子系統是通用平台重要的基礎構件,運維節點則是運維子系統最重要,最基礎的構成部分。運維節點被部署在每台伺服器上,維護該台伺服器上所有的運維任務。運維節點功能上篇已經描述,本篇簡介運維節點實現上相關要點。1.守護功能 守護功能作為乙個7x24小時執行系統而言是必不可少的,再穩定服務也有發生異常的時候...
Linux系統運維之運維監控 pdf格式
linux系統運維之運維監控 本文是系統運維工程師的實用手冊 主要講解基於 linux 平台運維工作中需要掌握的監控知識 本文全部基於實際應用 部署步驟詳細 可以直接複製用於生產環境的安裝配置 幫助剛剛接觸 linux運維的朋友們,迅速搭建企業級的監控平台。本文共分為五個部分 第一部分簡單的介紹了監...
運維的知識點
一。nginx 1.安裝部署 1.1注意要用普通使用者啟動軟體 1.2安裝軟體的模組 1.3make make install 編譯並安裝 1.4.使用 路勁來啟動軟體 二。nginx 的版本公升級 服務是否起來可以檢測埠號的開啟情況 2.2 備份老的軟體 2.3安裝步驟跟安裝軟體一樣 三。ngin...