01 運維監控

2022-03-17 02:21:09 字數 1139 閱讀 7710

聽聞前輩所說,在監控不發達的時代,出行基本靠走,安全基本靠狗,那個時候沒有自動化監控的概念,都是人工盯著機器,進行輪班;每天上班第一件事情就是去巡視一下,看看各項軟體列印的資訊是否有異常,順便拿execl記錄一下。

現在如今的企業中,運維就要負責成百上千臺的機器,傳統的方式依然不行,沒有高大上的方法是支援不起這種規模的監控,伺服器隨時隨地可能出庫長,需要通過監控來讓機器來管理監控機器;不管是虛擬機器還是物理機等等,當然有時候先上服務的執行,網路裝置,業務狀況以及使用者體驗也需要監控。

監控在企業中扮演著重要的監督角色是我們的眼睛,任何乙個地方出現問題我們都需要及時知道確認情況,很多情況下我們對某些型別的監控需要非常敏感,例如使用者地區是否正常訪問等,一旦出現了問題,我們就需要通過監控確認問題,甚至通過監控觸發後續操作來解決問題,減少損失。

監控是整個運維乃至整個產品生命週期中最重要的一環,事前及時預警發現故障,事後提供詳實的資料用於追查定位問題,所以監控的重要性就不言而喻了。

基礎運維主要扮演處理日常任務,及時救火這樣的角色,而監控的構建以及資料採集工作,很多時候都需要多方的協助;不管是基礎運維還是高階運維亦或者運維架構師,在緊急的時候人人都要扮演救火英雄的角色,而救火為了更加精確及時發現問題,一套好的完善的監控系統就很自然的作為運維工作中的第一優先順序任務。

監控組成部分首先就需要確定資料來源,資料不是憑空而來的,只能是通過運維採集而來;資料採集本身是一門學問,比如有針對系統的常規統計,還有針對業務的使用者分析流量分析,同時還有安全策略,cc安全等等。

一般常見的資料來源流程如下:

伺服器/網路設配/使用者資料 ---> 產生行為和狀態 ---> 資料採集 ---> 監控系統
除了資料來源監控系統的組成,監控系統一般包含:資料儲存,查詢分析,事件觸發(報警),資料展示

查詢分析:有了資料我們就需要對資料進行分析,會對資料做多維聚合等,後續再介紹監控系統時在詳細說明;

事件出發:一般事件出發主要使用在兩方面乙個是報警(傳送郵件,語音閘道器,釘釘等);而另外一種則是根據現有系統規則,叫時間提交給機械人做出修復工作;比如我們發現流量高峰mysql連線池不夠使用,通過機械人迅速給mysql擴容當前合適的配置;

資料展示:通過圖表,對資料進行圖形化展示,有利於發現問題。

監控與運維

監控神器 普羅公尺修斯prometheus elk elasticsearch logstash和kibana。一種很典型的mvc思想,模型持久層,檢視層和控制層。logstash擔任控制層的角色,負責蒐集和過濾資料。elasticsearch擔任資料持久層的角色,負責儲存資料。kibana擔任檢視...

Prometheus 運維監控

prometheus 運維監控 1 prometheus 介紹詳解 2 prometheus 安裝部署 3 prometheus 配置檔案詳解 4 prometheus promsql 常用資源 5 prometheus 配置採集目標 6 prometheus 重新標籤 7 prometheus 標...

Zabbix運維 監控

一 使用shell指令碼監控記憶體 二 新增監控一台主機 1 監控主機上安裝agent服務 配置檔案server端位址修改為zabbix server端ip位址 2 web頁面新增主機 3 選擇監控模板 4 重啟zabbix server,加速看到效果,客戶端狀態已經綠了 三 自定義監控項 1 新增...