再談大型資料中心的運維工作

隨著資料中心的建設規模不斷擴大，新技術層出不窮，資料中心變得越來越複雜。資料中心往往是由很多規模龐大的集群系統組成的，運維工作需要具備方方面面的知識，包括硬體上，業務上的東西，需要上下打通地去做運維工作。因為很多資料中心的規模非常大，面臨的挑戰和問題非常超前，很多不是問題的問題在這樣的規模下也就凸顯出來了，所以要做好大型資料中心的運維工作，對整個資料中心技術的系統的學習就要花費比較長的時間，只有對這個資料中心整體非常了解，才能有針對性地制定一些運維方案，甚至可以二次開發一些監控軟體，對整個資料中心進行管理與監控，提公升整個資料中心的執行效率，減少故障的發生，從而將運維工作推向新的高度。乙個大型的資料中心內部包含了很多小系統，運維工作都是圍繞著這些具體的應用系統展開的，具體的可以分為五大部分，三十多個小項，覆蓋了資料中心的所有組成部分，本文就來說一說一般大型的資料中心應該具備的哪些運維方法。

從資料中心安全方面來考慮，運維工作就是十幾個小項：攻擊保護、韌體管理、備份、抓bug/找bug、指令碼工具、自動化維修、資料安全、效能優化、服務巡檢等專案，其中每一項拿出來其實都包含很多的內容。比如說到攻擊與保護，這個主要指的是防止外來的異常入侵者對資料中心發起的惡意和無意攻擊，惡意攻擊就是有人故意的使用各種攻擊方法，進入到資料中心內部，將重要的資料竊取或者破壞，達到其不可告人的目的。也有的是無意的攻擊，因為整個資料中心是要與外界保持互聯互通的，執行是動態的，變化的，不可避免會有一些異常流量攻擊資料中心，有時甚至來自於資料中心內部，比如某些伺服器中毒，或者硬體故障，構造出了環路，異常流量等網路故障，這些都會影響到資料中心的執行，所以如何做好資料中心的攻擊與保護是乙個很大的題目，這並不是在資料中心裡部署幾台安全裝置就能解決的，需要對整個資料中心進行全面的統一規劃，並有針對性地部署一些安全防護措施，而且隨著各種黑客技術的提公升，安全防護措施也要不斷提公升，這是乙個不斷學習與完善的過程，只要資料中心還在執行，這個完善就不會停止。為了方便運維，也要做好一些執行指令碼，以便在出現突發事件時，能夠快速部署。比如如果乙個資料中心的業務出現異常，為了快速恢復業務，需要將路由進行調整，將流量全部引到其它的資料中心，這就需要在核心路由器上進行調整，這時有個現成的指令碼就可以自動執行，達到快速切換的目的。資料中心還應該準備很多其它工作的指令碼，以便緊急的時候快速使用。

從資料中心的基礎運維管理方面考慮，則主要有網路抓包/過濾、可維護性優化、配置管理、監控、報警處理、自動化運維、斷網，斷電、機房容災等運維工作。其中自動化運維能提公升運維的工作效率，儘量減少人為的參與，讓資料中心自己管理自己，釋放人力。同時針對資料中心可能發生的故障還做好監控與報警處理，以便能夠在故障發生的第一時間知曉問題，往往一次大的故障都是從開始的一點小故障逐漸擴充套件最終引發整個大系統的崩潰的，所以在出現一些小的異常時一定要及時消除，而這些異常就要靠完善的監控和報警系統來檢測。

從資料中心的日常業務運維方面考慮，則主要有資源、機器分配、coredump、服務、記憶體使用、網路吞吐、故障恢復、應用，集群搭建、流量，壓力，擴容，公升級、上下級業務關聯情況、資源利用率、異常處理、降級預案等等。這些日常運維工作實際上要花費大量的人力和時間，是運維工作的主體，也最煩瑣，但卻最不能體現業績的部分。乙個資料中心能夠長久安全穩定執行，就是靠這些日常的工作積累的，只有平時注意這些細微的變化，才能不斷優化。壓力測試、軟體公升級、業務部署、異常處理等幾乎成為了運維工作的日常必修課，只有將這些工作做好，才能避免出現大的故障，並能夠快速部署新的業務，新的擴容裝置。

從資料中心網路方面考慮，則主要有網路硬體裝置、acl、vip、流量、負載均衡、二三四七層情況、網路監控、萬兆板卡、sas/sata/ssd等。網路是資料中心的重要組成部分，是一切工作執行的基本，沒有網路資料中心就無法運轉起來，所以保證網路穩定是資料中心運維工作中的重中之重。這裡主要關注的就是網路的硬體問題，acl部署還有流量情況。網路可以說是包羅永珍，涉及太多的裝置和協議技術，所以也需要不斷地學習，加深對網路技術的理解，這樣才能做好網路運維工作。

從資料中心伺服器方面考慮，則主要有檔案系統、核心引數調優、各種硬碟驅動、核心版本、kernel panic等。linux系統不僅在伺服器，在網路作業系統也佔據著主流地位，掌握linux系統的使用才能更好地處理伺服器和網路裝置的運維工作，linux是運維工作的一項基本技能。除了熟悉linux系統的操作，還要對伺服器的執行狀態和核心執行狀態進行監控與管理，減少伺服器故障的發生。一般大型的資料中心都包含有成千上萬臺的伺服器，幾乎每天都會有伺服器出現各種各樣的問題，只有對伺服器有深入理解才能很好地消除問題。為了防止伺服器故障引發業務中斷，所以一般在伺服器上都要部署虛擬化技術或者集群技術，當一台伺服器物理硬體故障時，業務可以平滑切換到其它伺服器上，業務不會受到任何影響。這些虛擬化技術增加了運維的難度，也需要對虛擬化技術進行不斷學習。

通過上面的羅列您一定很驚訝，原來資料中心運維包含這麼多內容，大大小小數十項，而且每一項包含的內容說起來都不那麼簡單，也涉及很多的技術知識。乙個資料中心能否穩定執行，能夠高效執行，運維是關鍵。只有將這些運維工作很好地部署和執行下去，資料中心才能長期穩定。

再談大型資料中心的運維工作

如何做好大型資料中心的運維工作？

資料中心運維指令碼的力量

關於資料中心運維管理概述！

再談大型資料中心的運維工作

如何做好大型資料中心的運維工作？

資料中心運維指令碼的力量

關於資料中心運維管理概述！

相關推薦