企業資料中心經理們可向網際網路巨頭學習什麼

2021-09-23 08:46:00 字數 3951 閱讀 5578

在本系列文章中,我們將把關注重點聚焦於開源資料中心。從來自facebook的開放計算專案(open compute project)的資料中心每個物理層的創新,到由應用程式容器所推動的開發人員們處理it基礎架構方式的革命,開源正在改變資料中心的整個堆疊。今年三月,data center knowledge**的記者們瞄準了這其中的一些變化,以便幫助廣大讀者朋友們更好地了解開源資料中心的普及狀況。

本文是我們對amir michael訪談實錄的第二部分,在過去十年中,他大部分時間致力於世界上最大的資料中心伺服器的設計,首先是google,然後是facebook。他是開放計算專案(open compute project)的創始人之一,該專案是由facebook主導的開源硬體和資料中心設計社群。

今天,amir michaell是coolan公司的創始人兼首席執行官。coolan公司是一家初創企業,該公司旨在幫助資料中心運營商們更明智的作出硬體採購的決定,並通過借助大資料分析,使他們的資料中心更高效和更有彈性。

data center knowledge:您開創coolan公司時的最初的想法是怎樣的呢?

amir michael:在facebook時,我的團隊部署構建了大量的伺服器,多達數十萬臺。當我們部署構建伺服器時,我們將這些伺服器安置在資料中心,然後又開始投入下一代伺服器的設計工作,但卻從沒有真正回頭來看看我們在設計過程中所做出的決定在實際操作中是怎樣的。

我們曾經決定採購高階的記憶體,並為此支付更多的成本,因為我們認為這一舉措不會失敗。我們還做了一些設計決策,我們認為這些決策會從成本權衡的角度使系統或多或少變得更為可靠,但事實上,我們從來沒有在這些伺服器的實際操作執行過程中真正測量過。

我們總是圍繞購買什麼型別的元件或系統來做出決策,並嘗試決定是否為企業型別的元件支付更多,或者我們可以採用一款消費型別的元件。新的技術,特別是進入資料中心領域的新技術,圍繞著其可靠性方面並沒有什麼好資訊。而我們彼時也並沒有相應的跟蹤記錄。

coolant公司的聯合創始人兼首席執行官,以及開放計算專案的聯合創始人amir michael在拉斯維加斯舉行的全球資料中心世界大會上發表演講。

當我在facebook供職時,我開始反思回顧:「我們曾經做出的所有這些決策的運營成本到底是怎樣的?」我們在這些方面其實並沒有掌握太多的資料。我開始跟業界的同行們說,「我們來比較說明一下吧。您的伺服器設計失敗率較之我的伺服器設計失敗率是什麼樣的?而我們都沒有掌握很多這方面的資訊,因為這個行業的很多人都沒有真正』實際測量』過。」

而我們建立coolan公司的最初的想法是想要打造乙個平台,使人們可以很容易地關於他們的操作、關於故障率、關於元件的質量、關於他們正在產生的錯誤、關於他們的伺服器所執行的環境等等資料進行共享,不僅包括裝置的利用率,還包括它們周圍的物理環境,並使其盡可能容易地做到這一點,人們可以擁有這些豐富的資料集,我們將為他們進行收集和分析。

一旦您企業擁有了這一大的資料集,我們不僅能夠測量貴公司的基礎設施並進行基準測試判定,現在我們可以讓他們與同行業進行比較。您企業基礎設施的故障率較低,究其原因就在於:您企業組織的相關基礎設施是在最佳溫度環境下執行的,您的韌體是最新的版本,其更加穩定。現在,我們有了這種型別的比較,我們在行業中新增了乙個全新的透明層,使得企業客戶可以根據實際資料,充分知情的做出相應的決策,而不是猜測什麼元件適合他們。

一旦您企業掌握了這些資料,您就會很快地了解哪些**商是最適合您企業的,而哪些則不適合您企業,進而使得您企業在作出涉及大量的資金開支的部署決策時,能夠更明智。

這為整個行業增加了乙個全新的透明度,而這恰恰是我在facebook時非常想要的。我想知道我是應該選擇x**商還是y**商,當被問道關於**商產品的質量時,我並沒有太多的資訊,您也就無法從我這裡得到乙個好的答案。他們會給您一些他們用來計算平均故障間隔時間的數學公式,但這些公式其實並沒有真正體現出其與執行現場的關係。

amir michael:我的理論是,建立可靠性的資料中心最昂貴的方法是通過硬體。如果您企業要使用諸如冗餘ups、冗餘電源、冗餘風扇等等任何需要您新增額外物理元件的東西,那麼,這都將會是乙個非常昂貴的命題,實際上會在某種程度上降低了可靠性。

raid卡是乙個很好的例子。您企業資料中心是否想要備份您的儲存?您是否想要能夠維持故障驅動器的執行呢?所以,這樣的話您企業資料中心就需要新增乙個新的元件。但是當新新增的該元件也發生故障失敗了呢。raid卡也經常會發生故障失敗。這意味著什麼呢?在某些情況下,您實際上降低了系統的可靠性,因為現在,如果您的raid卡發生故障失敗,您所失去的就不僅僅只是乙個驅動器,而是失去所有的驅動器了。

但與此同時,我也明白為什麼人們會這樣做。舊的應用程式的設計不具備橫向擴充套件的設計部署。他們不是為了系統發生故障失效後繼續維持執行而設計的,因此在企業客戶中時常發生關鍵系統一旦發生故障,就會其失去了乙個完整的應用程式的狀況。

解決方案並是不修改軟體;而是修改後面的硬體,這是一條成本代價更昂貴的路線。今天,任何現代軟體架構都會假設系統發生故障的情況。因為無論您想要構建的系統多麼可靠,其都會不可避免的發生故障失敗。您資料中心只能是盡可能的減少其發生的頻率,但其肯定是會發生的。

而且我也的確看到過一些故障失敗發生的情況。即使是最可靠的系統也會發生故障失敗。所以這就是我最初的理念需要更多的發揮作用的地方了。您資料中心如何建立更具彈性的軟體,以便能夠抵禦系統故障?除此之外,您資料中心如何抵禦機架級的故障?如何抵禦整個設施所發生的故障失敗,而不僅僅是傳統的災難恢復?

一旦您資料中心實現了這一點,您就可以去掉很多的冗餘了。使得您能夠構建一款更經濟,更高效的系統,而且這是通過軟體的修改而實現的。這才是思考這一解決方案的正確的方式。

data center knowledge:在新聞報道中,超大規模資料中心運營商傾向於集中成為乙個團體,這意味著他們是以某種特定的方式設計和運營他們的基礎設施,而且這些運營商們在所有這些方面幾乎是一樣的。但事實並不是這樣的,例如,facebook的超大規模資料中心運營方法就與ebay有很大的不同,facebook使用相對較低的功率密度設計,而ebay則是盡可能採用使得其密度達到最大化的方法。鑑於此,是否在所有超大規模運營商之間存在著一套共同的最佳實踐方案呢?

amir michael:對於超大規模的資料中心運營商們而言,有一套最佳實踐方案是幾乎每家超大規模的資料中心運營商都應該採用的,即:密封遏制(containment)、高效的電力資源分配、高效的電源**。這些在超大規模資料中心操作運營空間都是廣為人知的。

還有很多的討論是圍繞著這樣的密度才是最為恰當的。對於不同的大型基礎設施運營商而言,他們的資料中心運營環境仍各有不同。某些企業還採用了主機託管,也許他們是出租了其整幢大樓,但他們同時也從其他運營商處租賃服務。而且還有的企業能夠以非常低的成本建立資料中心。他們已經把他們的資料中心設施的成本降到最低了。

這些不同的要求將導致他們需要構建不同的伺服器。您資料中心有乙個團隊構建功率密度相當低的機架。然後可能您又走了另乙個極端,即資料中心管理人員將機架設定為非常大的密度,並表示機架成本是相當昂貴的,資料中心也是昂貴的。故而讓我們獲得盡可能多的it裝置,並盡可能充分的利用這些裝置吧。

高密度也有其另一面。其會使得您企業資料中心受到一定的約束。當您構建一款非常密集的伺服器時,將很多元件打包進去,那麼當對其實施冷卻時,就會成為一項挑戰了。這就像通過乙個非常薄的吸管吸空氣一樣。您要花很多精力去做這件事,而如果您的機架密度不那麼緻密,會更容易推動冷卻空氣的通過。

這方面顯然會有一些益處,其將取決於成本模型。您資料中心想要大量的密度,這樣您可以將您的資料中心成本攤銷到更多的機器上,但同時您企業所支付的冷卻成本也將上公升?或者您想要一款便宜的設施,這樣使得您企業可以自行打造東西,坦白地說使得設計更容易,而機架密度不是那麼緻密,這樣冷卻也會更有效。或者您可以使用像1.5u,2u高的散熱器,這是非常高效的,易於冷卻,僅僅只需要很少的風扇功率。

一些運營商,比如ebay,選擇了採用高密度,這造成了很多挑戰,我並不知道全面的情況,但是如果我把他們的資料中心和facebook的成本模型進行比較,那種型別的密度對我們來說並不那麼有吸引力,因為您需要為建造密集機架付出額外的開銷。

您資料中心的伺服器有許多重要部分實際上是為您工作的,包括諸如:cpu、dram、儲存。這就是您想要所有電力資源所去到的地方。您希望這些裝置能夠消耗您資料中心的90%的電力資源,因為那些裝置實際上是為您的企業工作服務的。但是,如果您資料中心的構建過於密集,您將需要把大量的能量消耗轉移到冷卻系統。這樣的話,就顯然不是一款高效的系統了。

關於作者

企業資料中心和網際網路資料中心有何不同

資料中心按照服務物件的不同,可以分為企業資料中心和網際網路資料中心。企業資料中心指由企業或機構構建並所有,服務於企業或機構自身業務的資料中心,它為企業 客戶及合作夥伴提供資料處理 資料訪問等資訊服務。企業資料中心的伺服器可以自己,也可以從電信級機房中租用,運營維護的方式也很自由,既可以由企業內部的i...

檢視網際網路資料中心有感

12月27 日中午,我去某個 idc 所謂 網際網路資料中心 實地檢視,有所感悟。記得,十年之前,我有乙個朋友,搞 世紀互聯 其實搞的就是 idc。至今,我仍然佩服他的眼光。一般說來,idc就是伺服器集中託管的地方,那裡的 系統管理 軟體很複雜,管理起來,成本很高,得靠 規模 賺錢,實屬不易。但是,...

網際網路企業格局

字型大小 ttt 全面開放 實現共贏共利 6大能力中街景地圖 實時定位 興趣點檢索 出行服務 地理編碼產生了龐大的資料量,開發者通過對資料的挖掘可得到使用者行為軌跡 興趣模型 行為取向等極具價值的資訊。lbs雲則解決了這些資料的儲存維護 檢索以及管理等難題,體現了營銷入口的價值。android io...