自從資料中心引入了雲計算、虛擬化等大咖技術,立刻變了模樣,這些技術大幅提公升了資料中心的執行效率,給資料中心帶來了諸多好處。不過,任何事情都有兩面性,我們在享受新技術帶來的益處時,也給資料中心運維的管理帶來了不便,需要管理物件的數量、規模及複雜度均呈現指數級增長,傳統人工干預、保姆式管理監控與故障處理的方式肯定無法滿足要求了。比如對於公有雲及大型私有雲,伺服器數量往往可以達到數萬到數十萬、百萬規模,各類系統雲服務及租戶的業務應用負載數量,也達到了數以百萬乃至千萬級的程度,這樣全靠人工維護不現實,必須引入自動化、智慧型化運維的管理模式,將人均維護管理效率從平均每人數十台伺服器,提公升到平均每人數千台伺服器。運維的管理不能成為資料中心上雲發展的絆腳石,也要跟得上資料中心的發展。本文將著重介紹幾種現代運維中運用的新技術手段。
自動化人工故障修復機制
資料中心難免會出現這樣那樣的問題,靠人工發現不僅速度慢,而且容易誤判。不妨將這個識別工作交由軟體來處理。首先,要建立乙個故障模式庫,長期積累各種曾經或者可能會出現的故障預判、識別,這個故障庫內容要實時保持更新,不斷將一些新的故障型別和經驗輸入進去。其次,將故障判斷的方法告知軟體裝置,由軟體自動完成判斷,軟體根據從資料中心各個裝置收集上來的執行引數,與故障模式庫里儲存的引數進行對比,如果發現有相同的,認為是資料中心出故障了。最後,資料中心可以採取告**式通知運維人員,也可以由軟體執行一鍵式修復。這個取決於業務的重要性以及資料中心故障經驗積累的豐富性,萬一恢復動作錯誤,可能會引發二次故障,給資料中心帶來更大的損失,所以修復機制一定要慎重,非緊急的業務故障不建議採用自動修復,待人員確認之後再去手工執行修復。實際上,雲計算的引入增加了資料中心故障自動檢測和修復的難度,所有的應用業務都已和物理硬體裝置脫離,形成了乙個純軟體的虛擬世界,複雜的虛擬系統給故障的排查和分辨都帶來了難度,這給自動化人工故障修復帶來了極大挑戰。不過,資料中心運維走自動化的路已不可避免,過多的人力成本對於任何乙個高速擴張的資料中心都無法承受。
日誌和監控資訊集中管理與控制
傳統資料中心中,各軟硬體系統的日誌監控資訊往往相對零散孤立,沒有實現與業務和使用者的自動關聯,當出現故障時,甚至還需要依此登入到每台裝置上去排查,效率低下。在有些資料中心雖然部署了網管系統、日誌伺服器,依然需要人工檢查。當數十萬的裝置同時輸出日誌時,海量的資料根本沒有辦法進行檢查,這時就要統一對這些資訊進行分析和判斷。很多資料中心建設運維管理雲平台,就是要將這些海量資料進行統一處理,依然是通過提前設定判斷條件,然後發現不符合常規的日誌及時進行告警。雲平台的判斷條件忽略了日誌告警的裝置差異,只關心對業務有影響的日誌資訊,設計一些特有的判斷故障的條件,這些條件需要和各種裝置廠商溝通好,證實這些判斷是有效的,然後在雲平台中部署。雲平台的功能很強大,僅僅是依靠裝置主動輸出日誌來診斷是遠遠不夠的,它還可以主動從資料中心的任何乙個環節採集監控資訊,這些監控資訊可以實時反映整個資料中心系統執行的綜合狀態,一旦出現異常的引數或者有變化的數值,就要引起警惕,輸出告警。
大資料的機器學習機制
傳統資料中心的故障發現與修復建議的處理,主要依賴雲平台收集的日誌和監控資訊,通過運維人員長期積累的歷史經驗進行判斷,人的行為是最不可靠的,很多時候經驗都是錯誤的,而機器則不會出錯,只要你給它足夠的學習資訊,它就可以做出正確的判斷。最近master很火,master是一款會下圍棋的機械人,在最近的圍棋比賽中,取得了60勝1和的成績,1和還是因為掉線被系統判和,落敗者包括聶衛平等頂尖圍棋高手,這說明只要給裝置足夠的學習時間,它的智慧型可以遠遠超過人類。運維的管理也可以引入機器學習技術,通過對資料中心運維海量資料的分析,利用大資料建模,自動化地、智慧型化地挖掘出更多**值的、運維人員認知範圍外的故障模式與系統優化模式,從而進一步提公升系統運維的效率。通過大資料機器學習,對大規模運維場景下的效能與故障規律分析、趨勢**及故障根因識別定位,提公升機器自動化運維的能力,最終其將超過人工運維的判斷準確性,就像機械人下圍棋一樣,最終機器運維資料中心也要大大超過人們自動去做。人們只要去研究如何讓這些機器正確學習,學習好就可以了。
顯而易見,雲資料中心新的自動化運維技術特點主要是:自動化、自學習。由機器自我學習,自動完成資料中心的運維和故障修復。未來的資料中心雖然規模更大,系統更複雜,但在運維的管理上要從簡,實現自動化運維管理。資料中心運維將人的因素排除,讓資料中心形成乙個完全的自治系統,實現成為真正的無人資料中心。當然,資料中心的自動化運維還有很長的路要走,沒有哪個資料中心能夠真正脫離人工參與。這就像自動駕駛汽車技術發展一樣,技術複雜,並徹底改變了現有的生活方式,要人們接受需要很長時日。對於資料中心也一樣,自動化運維技術雖好,但仍不夠成熟,很多人持觀望的態度,但願未來這類技術可以很快完善起來。
運維自動化
1,cobbler安裝環境準備 安裝epel epel release 6 8.noarch.rpm x86 64 epel release 6 8.noarch.rpm x86 安裝系列依賴環境 要是區域網用,建議關閉iptables 或是放行25151 80 69埠 和關閉selinux 檢視狀...
自動化運維
考慮的因素 源 打包為映象 發布到映象庫 利用k8s發布到物理機器執行,以服務的形式對外提供服務 目前的做法 0 建立乙個執行遠端命令的框架 1 每個應用建立乙個部署檔案指令碼 a 指定元 位址 c 同步源 到目標主機 d 接受指令碼引數 vername 2 版本號,映象tag fromport 3...
自動化運維 Spug 輕量級自動化運維平台
對於中小型企業而言,進行主機和應用的管理是比較麻煩的,應用部署往往需要直接連線伺服器,再進行手動的環境配置 拉取 應用構建和部署發布等工作,容易出錯,且耗時費力。乙個好的自動化運維平台,往往能大大節省人力物力,提高開發部署效率。spug,正是乙個面向中小型企業設計的輕量級自動化運維平台。spug,是...