運維子系統之運維節點

2021-10-06 21:35:30 字數 2094 閱讀 3832

運維子系統是通用平台重要的基礎構件,運維節點則是運維子系統最重要,最基礎的構成部分。運維節點被部署在每台伺服器上,維護該台伺服器上所有的運維任務。運維節點功能上篇已經描述,本篇簡介運維節點實現上相關要點。

1. 守護功能

守護功能作為乙個7x24小時執行系統而言是必不可少的,再穩定服務也有發生異常的時候,在服務異常退出執行後,就需要有乙個守護來啟動服務再次投入執行狀態,通用平台設計運維子系統來承擔該任務,具體由運維節點來進行服務守護工作。每台伺服器上都被部署了運維節點,每個運維節點負責本機上所有服務的守護工作,由一而全身達到整個系統都處於守護之中。盡力避免服務異常退出後再無法重啟的情況。

2. 服務更新

服務更新是運維子系統核心功能,承擔整個系統運維最為重要部分。本人在後端服務維護中,很多時候進行外網服務運維工作都是基於手動完成,既費時費力,還容易出錯。進行通用平台設計時就注意避免此類問題。

(一)運維任務發布和本地任務確定。

a. 當系統有服務更新需求時,管理員發布運維任務修改運維db。

b. 發布服務將運維資料發布至資料子系統。

c. 運維節點從資料子系統獲取運維資料。

d. 檢測運維任務是否與本伺服器有關,如確定運維任務與本機有關,則開始運維任務。

(二)運維節點運維流程。

a. 運維節點首先檢查本機是否有符合更新要求的檔案。這是因為服務更新包括公升級和回退,如果是回退,那麼本機已經有了更新檔案,無需再次進行同步。

b. 本地無符合要求檔案,則向本機房資料子系統發起資料請求。

c. 本機房資料節點檢查本地是否有符合要求檔案,如本地已有檔案,則傳送至請求運維節點,完成檔案更新步驟。

d. 如本機資料節點檢查本地無符合要求檔案,則向資料來源節點傳送資料請求。

e. 資料來源節點根據資料請求,將更新檔案傳送至請求節點。

f. 資料節點同步完檔案後,將檔案傳送給運維節點。

g. 運維節點在完整接收檔案後,關閉對應執行服務。

h. 啟動新版本服務。

(三)運維任務失敗。

運維任務有可能出現失敗情況,該情況下運維節點會嘗試幾次重啟開始該運維任務,如一直失敗,則進行回退到運維任務未發布的狀態,同時輸出運維失敗日誌,日誌捕捉到後,由其它服務傳送提示郵件等等諸如此類操作,告知運維失敗,需要人工檢測錯誤原因。

3. 配置更新

通用平台設計配更新分為兩類,一類是整個配置檔案全部更新,該型別與上述服務公升級一致,只不過不需要替換的不是可執行檔案而是配置檔案,本節不再贅述。還有一類是只更新某部分配置,運維節點再接收該任務時,將進行對應配置檔案操作,更新配置內容。通用平台全系服務採用動態載入配置,所以更新部分配置後,無需重啟服務既能生效,所以配置更新不會引起服務重啟。

4. 服務廢棄與關閉

運維節點根據運維任務也可以進行服務廢棄與關閉操作,運維節點確定是本機的廢棄服務操作後,找到對應程序並關閉,待程序退出後刪除相關檔案,以便**資源。

5. 其他關鍵點

(一)關聯性運維任務。

運維任務很多情況下有著關聯性,既運維任務有一定的順序,如先更新配置,在更新可執行檔案等等諸如此類有著先後順序,只有按著這個先後次序才能成功運維。針對這類情況可以在發布任務時注意先後順序既能達到目的,另外運維節點在運維失敗後,會嘗試運維一定次數,所以即便是次序有點問題,運維節點也能在幾次嘗試運維後成功運維。

(二)磁碟空間管理。

在一般性的運維作業中還會包含流量監測、伺服器效能監測、磁碟空間管理等等日常工作。這些代表伺服器執行狀態資料已有整合***提供,但是這些伺服器狀態資料基本都與業務服務相關比較大,運維節點最多也只能是發現問題上報,無法去干涉,但是伺服器磁碟管理運維節點是可以控制的。本篇並未將該功能作為運維節點提供功能單獨列出來,這是因為磁碟管理控制功能,可以利用服務更新功能輕鬆達到,可以將磁碟管理做成批處理,通過服務更新將該批處理檔案傳送至各伺服器,由運維節點呼叫既能達到磁碟管理功能。

運維節點是整個運維任務的執行者,是運維的核心服務,該服務穩定性和可靠性直接影響運維子系統的可靠性。運維子系統關乎通用平台整個系統運維重任,可以大幅度降低運維成本,提高運維效率是價效比極高的構件。本篇簡介運維節點相關若干方面,希望能對讀者有一定啟發。

通用服務平台之總體架構設計

Linux系統運維之運維監控 pdf格式

linux系統運維之運維監控 本文是系統運維工程師的實用手冊 主要講解基於 linux 平台運維工作中需要掌握的監控知識 本文全部基於實際應用 部署步驟詳細 可以直接複製用於生產環境的安裝配置 幫助剛剛接觸 linux運維的朋友們,迅速搭建企業級的監控平台。本文共分為五個部分 第一部分簡單的介紹了監...

Linux系統運維

linux系統運維 本書作者劉遄 liu chu n 從事於linux運維技術行業,高中時期便因興趣的驅使而較早地接觸到了linux系統並開始學習運維技術,並且在2012年獲得紅帽工程師rhce 6版本證書,在2015年初又分別獲得紅帽工程師rhce 7版本證書與紅帽架構師認證rhca頂級證書。儘管...

運維命令系統之 strace

strace是什麼?按照strace官網的描述,strace是乙個可用於診斷 除錯和教學的linux使用者空間 我們用它來監控使用者空間程序和核心的互動,比如系統呼叫 訊號傳遞 程序狀態變更等。linux核心目前有300多個系統呼叫,詳細的列表可以通過syscalls手冊頁檢視。這些系統呼叫主要分為...