因此,企業轉而採用各種專業監管工具——比如 nagios 、 zabbix 、 solarwinds 和 aws cloudwatch —— 旨在獲取對堆疊不同層次的深刻認識。遺憾的是,這些工具難以實現互動的工作方式。各種監管工具的告警便層出不窮,數量之大,幾乎讓你分不清訊號和噪音。
如何在噪音中準確尋獲訊號?
對於運維團隊來說,只是單純的獲取告警其實是遠遠不夠的,因為我們得到了太多的告警。事實上,源源不斷的告警只會培養運維團隊無視告警的能力(無法否認這是事實!)。當噪音很大時,你容易將不常見的訊號也當成噪音。這可不是好事。
因此,運維團隊需要智慧型的整體解決方案和可運算元據的解決方案,這樣不僅能自動處理超出人工可處理範圍的任務,還能在收到可操作告警後知道該如何處理。
為實現以上功能,結合告警平台的已上線的功能,以國外的 bigpanda 和國內的 onealert 為例,整合了運維團隊需要的解決方案應該包括的5 個關鍵因素:
時間。運維團隊需要掌握實時動態。比起容易過時的快照,運維團隊需要輕鬆地掌握實時動態。但是,快照的優勢在於能夠讓你比較今天和昨天甚至是前一周的資料,onealert 最多可提供 1 年的儲存資料服務。
告警等級。如果你識別不了哪乙個告警是最重要的,你就不知道輕重緩急。一般分為嚴重、警告、提醒三個等級。
告警型別。針對告警目標和內容的關聯度及事後影響,了解告警發出的真正原因,從而確定告警型別。
自動化和整合。當我們無法解決告警的時候(可能是不擅長處理該類問題,還可能是沒有時間處理!),我們可以在整合的工單系統中提交工單,對一些簡單的可自動化處理的問題,可以直接自動化處理,如重啟伺服器等。onealert 非常重視相關模組的開發。
剖析大藍圖。今天的 it 基礎設施並不存在任何孤島。乙個應用的告警是其他應用出現問題的訊號。運維團隊需要了解每乙個 it 難題怎樣串聯在一起,又是如何相互影響的。剖析大藍圖必不可少。
綜合以上 5 個因素,可以總結出提高運維團隊維穩效率的 2 個關鍵因素:時間洞察力和補救時間。
二者之中,時間洞察力更為重要,這個過程耗時越長,企業宕機時間的成本就越高,生產力損失就越大。你有足夠的信心去洞察嗎?你知道如何才能解決問題嗎?原有的監控工具忽略了補救時間的重要性。但是,請記住,如果我們無法衡量它,我們就無法改善它。因此,不斷改進是運維團隊緊跟時代步伐的唯一方式。
本文** oneapm 官方部落格
it運維中faq IT運維解決方案
藍快為企業提供桌面運維 系統運維 應用系統運維 儲存與備份運維 網路運維 資訊保安運維等服務,降低企業裝置的故障率,提公升裝置的執行能力,推動企業商業價值的實現 藍快it運維服務 桌面運維服務 對終端使用者及相關辦公裝置等問題,進行響應支援,保障使用者的日常辦公 系統運維服務 對各類伺服器進行日常維...
linux運維之selinux的解決方案
selinux 安全增強型 linux 是可保護你系統安全性的額外機制在某種程度上 它可以被看作是與標準許可權系統並行的許可權系 統。在常規模式中 以使用者身份執行程序 並且系統上的檔案和其他資源都設定了許可權 控制哪些使用者對哪些檔案具有哪些訪問權 selinux 的另乙個不同之處在於 若要訪問檔...
口罩機遠端監控運維解決方案
口罩機遠端監控運維系統解決方案 1 口罩機遠端監控運維系統專案需求分析 管理角度分析1 網際網路時代,如何進行口罩機及人員管理的資訊化?2 物聯網時代,如何實現口罩機健康及生產狀態數位化?3 智慧型製造時代,如何實現口罩及生產智慧型化?口罩機遠端監控結合企業管理資料以及業務資料,實現對所有口罩機裝置...