雖然離開h公司公有雲運維崗位有一段時間了,但仍然在斷斷續續思考公有雲該如何做才能運維好,最近順手翻起《google sre運維之道》,思考再三,對雲計算的本質和運維做乙個簡單總結。
雲計算的本質是將計算機的基礎能力(硬體能力,軟體能力)以便捷的方式提供給需要的個人或組織使用,是一種能力和資源的使用方式。
雲計算的這種對計算機能力的使用方式與電力的發展非常類似,最開始要使用電力,使用者必須自己建立發電設施,並負責發電設施的運維和管理;但隨著技術發展,開始由專門的企業建立發電設施,並通過線纜將電力輸送給使用使用者,在該過程中使用者不在需要建立發電設施,也不在需要維持專門的人員運維管理發電設施。對於電力提供者而言,其建設和運維成本並不會隨著用電使用者的增多成線性增加,因此其有了更大的動力發展更多的使用者,更多使用者的使用又降低了人均成本,從而讓電力的使用走進了千家萬戶,促進了全社會生產力的提高。
雲計算的使用也是這種方式,大量的使用者只需要根據自己的需要購買雲計算廠商提供的計算機基礎能力(計算,網路,儲存,各種平台軟體,各種服務軟體等),不在考慮硬體,網路,軟體的安裝部署以及運維等一系列額外工作,只需要關注自己的核心業務即可以,計算機基礎能力全部交給雲計算廠家去完成。
雲計算的這種計算機基礎能力的提供方式極大的提高了it領域的生產力,深刻的推動了it各個領域的變化。舉個例子,在沒有雲計算之前,如果想要建立乙個**,至少需要完成以下工作:
1:購買網域名稱。
2:購買硬體。
3:購買基礎軟體(os,database,webserver等)。
5:託管伺服器並接入運營上網洛。
這一系列工作沒有十天半個月,休想完成。但是在有了雲計算以後,建立乙個**,只需要在雲計算廠商的**上進行購買即可以(這個過程最多也就2小時完成)。
因此可以說雲計算極大的提高了it領域的生產裡,帶來了業務領域革命性的變化。
從雲計算的本質可以看到,雲計算這種方式一定會有如下的一些需求。
1:必須要有大量的使用者去使用雲計算這種業務。只有大量的使用者使用雲計算業務,雲計算提供者才能攤薄成本,單獨的使用者才能以更低的**使用更多,更高的計算能力。
2:雲計算系統一定是乙個大規模或超大規模的分布式系統。為什麼這樣說,這是與當前計算機硬體發展緊密相關的,因為有大量的使用者(成千上萬或幾百萬)使用雲計算,因此雲計算系統必須提供足夠的計算儲存等計算機基礎能力,但是在當前技術條件下,單獨一台或少量計算機是沒有辦法提供這麼大的計算,儲存等計算機基礎能力,因此必須將成千上萬的計算機組織管理起來對外提供這種能力。這個規模可能是幾十萬,也可能是幾百萬,甚至是幾千萬(根據使用者數量來確定)(題外:如果將來某一天,有一台計算機能提供無限的計算能力,那麼就不需要構建這麼乙個大系統)
個人認為,以上是雲計算領域最主要的兩個特點,通過以上兩個特點,可以推導出雲計算架構設計,運維等各個方面的隱含需求(另外對於h公司使用openstack作為公有雲的基石,同時將公有雲系統與所謂的私有雲系統用同樣的架構構建,個人不看好其未來發展,如果要獲的良好的發展,公有雲架構必須要正對以上兩個特點進行重構)。
it技術的發展逐步催進了雲計算的出現,對於雲計算,主要技術有如下這些
1:硬體虛擬化
硬體虛擬化的出現,為雲計算的出現打下了基石。硬體虛擬化技術的出現解決了硬體資源分割,組合,提供的的能力,方便根據使用者的需要提供不同能力的虛擬硬體,這也是雲計算彈性獲取的技術基礎。
2:更快,更寬的網路訪問
更快,更寬的網路速度,提供了對雲計算資源的快速訪問和控制。
3:分布式軟體系統的發展
隨著it技術的發展,各類大規模分布式軟體實踐,解決了如何管理成千上萬硬體伺服器的能力。
以上只是乙個概要,由於雲計算是it相關技術的集大成者,因此涉及到的具體技術非常非常多,且都有不同的實現。
例如,對於硬體虛擬化,當前主要有對計算的虛擬化,網路的虛擬化,儲存的虛擬化;對於計算虛擬化,比較有名的技術有kvm,vmware,xen等。對與網路的虛擬化,當前有sdn技術,以及將交換機虛擬為乙個軟體的ovs等。儲存虛擬化,有各種各樣的分布式儲存系統,例如ceph等。
這個問題挺難回答,但我印象最深的是《google sre運維之道》裡面提的一句話「以軟體工程的方式」去管理成千上萬的各類裝置。
為了達到這個目的,一套良好的分布式軟體系統必須建立起來,這套系統具有以下特點。
1:能簡單方便的支援軟硬體的加入和退出。
2:具有良好的監控能力,能精確的給出系統中發生故障的軟硬體系統。
3:在一定條件下能對系統中故障的單元進行隔離,但不影響整體服務能力。
google通過borg系統完成了上面的一系列要求。
除了通過軟體工程的方式對軟硬體系統進行管理外,還需要處理系統在執行過程中的各類異常狀況,例如光纖被挖斷等意外事故,這就對運維過程或管理過程又提出了新的要求。
在《google sre運維解密》這本書中,提到了一些實踐理念如下。
1:擁抱風險。
2:建立服務質量目標slo。
3:建立軟硬體上線下線的流程管理機制和准入門檻。
4:建立緊急事件應急機制。
5:建立24小時的on-call機制。
6:建立事後回顧機制及總結機制進行學習。
7:讓運維團隊深入的參與到上線業務的開發過程中,並給出指導建議。
要完成以上工作,需要運維人員在技能的廣度和深度上更進一步,單獨的網路管理人員或開發人員已經不能滿足雲計算場景下的運維和保障,雲計算場景下的運維人員必須具有如下的技能特點。
1:良好的開發技能,能夠構建可靠,良好的軟體系統。
2:熟悉各類軟硬體的部署,調測。
3:熟悉各類裝置的系統管理,例如交換機,網路管理,伺服器os管理等。
雲計算的運維是乙個系統工程,要完成好雲計算這個大系統的運維,必須根據雲計算的特點去構建運維系統和提公升運維人員的能力。必須在初始階段就要考慮到雲計算是乙個面向大量使用者的乙個超大規模分布式系統,並且在逐步的建設和實踐過程中將該特點貫穿到各個方面。
雲計算運維
雲計算運維預習第三天 今天是我第一寫部落格,心裡還有很忐忑的,害怕別人看更害怕別人不看,在部落格裡也溜了幾個月,裡面的大神真的好多啊,好厲害,希望有大神能夠指點一二,能力相當的交流切磋。這個購買阿里雲好像還真的沒有什麼說的,現在就記住按量付費or包年包月,好像都還挺貴的,就華北的便宜一點,還有就是雲...
雲計算運維累不累 IT運維以及雲計算時代的運維
維基百科的定義 所有流程和服務的超集,這些流程和服務都是it團隊提供給其內部和外部使用者的,並由他們自己使用,以實現其業務的運轉。it運維團隊的重要角色包括技術管理和質量保證以及基礎架構管理,並確保it產品 或服務 滿足客戶的所有需求和期望。運維團隊按所需的質量和成本提供有效的服務。我們主要想 三個...
雲計算運維累不累 為何運維最適合學雲計算?
網際網路時代,最熱的詞是什麼?雲計算 是絕對不二選的熱詞標籤。據國內大資料估測,雲計算人才缺口或將超百萬之大。面對巨大的人才需要,你準備好了麼?1 前景看好 雲計算 孕育大未來 當下,各種基於網際網路的衣食住行服務等活動都在產生大資料,大資料的處理 分析就需要雲計算。雲計算的應用,已經極大地改變了人...