架構革新路漫漫,京東智聯雲自研伺服器設計細節探秘

2022-06-07 15:18:10 字數 3353 閱讀 1425

在人工智慧、物聯網高速發展的今天,一切資料的計算和應用都離不開底層資料中心的支撐。如果把資料中心比作是乙隻數字軍隊,那資料中心機房機架上的一台臺商業伺服器就是前線的士兵。士兵的強弱直接影響軍隊的戰鬥力,伺服器也是一樣。底層伺服器的創新設計,將最終促進資料中心的變革,提公升上層應用的體驗。

作為國內網際網路巨頭,京東在自建資料中心與自研伺服器方面積累了深厚的經驗。在近期舉辦的《面向全場景部署模組化設計,京東智聯雲自研伺服器探索》技術公開課上,來自京東智聯雲idc與基礎運維部的技術專家王世鋒與英特爾雲計算架構師週超,除了伺服器自身設計,現有資料中心的最硬性指標pue(power usage effectiveness,資料中心總能耗 / it裝置能耗 )一直偏高,均在1.4-3之間。本世紀初或者上個世紀建設的機房,沒有做冷熱通道隔離,機房裝置簡陋,pue值更高,甚至超過3。單位功耗提供更高的算力和儲存是資料中心一直追求的目標,在未來大規模部署的超大資料中心中,降低pue將是重點需要解決的難題。

部署運維的笨重和繁瑣也是掣肘資料中心的難點。現在伺服器部署週期冗長,從拆包,上架,機櫃內接線,平均每台伺服器部署時間約1小時,每名運維工程師每天只能部署乙個機架的伺服器。在運維時,當前伺服器設計都是前部硬碟、內建風扇、後端出線,更換風扇等硬體要全部拔線、伺服器關機下架、開蓋更換硬體,再次上架插線,操作繁瑣。伺服器的部署和運維效率低,沒有實現智慧型化運維。

從效能角度,目前伺服器採用高密度布局,但90%仍採用傳統風冷對流,換熱係數較低,隨著伺服器cpu功耗提公升,風冷散熱模式瀕臨極限。經過測算,下一代 eagle stream 350 w 的cpu在 1u/2u 伺服器節點用風冷方式已經無法實現目標效能,資料中心未來需要探索採用冷板式液冷或者浸沒的液冷方式。

京東智聯雲技術專家王世鋒認為,未來的伺服器將發展為根據不同客戶需求進行定製,還會以整機櫃方式交付以提高交付效率。同時資料中心將追求盡可能低的pue數值以節省電力成本,idc運維將向簡單化、智慧型化、無人化方向轉變。伺服器整體能效將通過新的系統架構及新技術的匯入使效能顯著提公升。資料中心冷卻方式將由風冷向水冷模式轉變。

針對資料中心和伺服器的現存問題,京東智聯雲以穩定可靠、可定製化、全場景覆蓋、綠色節能、高價效比的設計理念,對伺服器進行了全新架構設計,推出了業界第一款可以實現前後io模組化切換的自研伺服器,除了一體機交付,還可以通過整機櫃交付,能夠與傳統伺服器相容,有效提公升了資料中心靈活性。

在京東智聯雲自研模組化伺服器的全新架構設計中,最大的亮點是前後兩個io模組設計,能夠做到靈活切換前後io,後io可以適用於沒有理線架而無法支援前端io的標準機櫃,靈活的模組化設計可適用於更多部署場景的資料中心。圖中詳細拆解展示了京東智聯雲自研模組化伺服器的設計思路,前端放置硬碟、前io模組,中間為主板,主機板後為pcie模組可外接pcie卡,尾部放置風扇,或增加後io模組。另外,伺服器支援crps標準電源,同時也支援電源轉化模組,方便整機櫃電源集中管理。京東智聯雲自研模組化伺服器還設有上水冷模組,可實現風冷+水冷的風液混合散熱模式。

京東智聯雲邀請希捷對自研模組化伺服器與傳統伺服器進行了對比測試,分別測試伺服器在14t和20-24t機械硬碟下效能表現。14t機械盤的情況下京東智聯雲自研伺服器效能接近百分之百,傳統伺服器只達到85%;20-24t的情況下,京東智聯雲自研伺服器performance loss為3%,效能達到97%,但傳統伺服器效能已降為7%,幾乎為不可用狀態,更無法滿足對效能有較高要求的網際網路企業。

硬碟的效能對整體伺服器的影響頗深,那麼影響硬碟效能的原因主要是伺服器散熱使用風扇的震動與切割空氣產生的波動,其會降低硬碟效能表現;隨著儲存需求迅速增長,硬碟儲存密度也在相應增加,導致硬碟磁密度增加,最終硬碟對外界的震動更敏感。而這兩種現象則構成了阻礙行業發展的悖論。

而京東智聯雲打破悖論的方式主要有以下三點構成:

通過全新的架構設計,以及整機櫃和一體機交付,京東智聯雲的自研伺服器獲得了以下六方面的效能優化:

據介紹,京東智聯雲還將自身網際網路大廠的技術實力推向企業市場,京東智聯雲硬體定製化服務haas一體機產品,整合空調、ups、自研伺服器、交換機和監控軟體的整體解決方案。結合京東智聯雲自研的雲產品,如ai一體機、pass一體機、辦公一體機等軟硬結合的一體化解決方案,賦能京東智聯雲。未來,京東智聯雲自研伺服器將成為京東資料中心的主力,同時也將會對外售賣,為更多客戶解決伺服器使用的痛點。

液冷是目前在資料中心領域非常熱門的研究方向,因為目前資料中心機架伺服器所有的器件功耗都在快速增長,導致傳統的風冷散熱方案不堪重負,而液冷比風冷散熱係數更優異,會成為未來資料中心發展演進的必經之路。英特爾投入大量人力物力研發液冷的設計和技術實現,英特爾雲計算架構師週超在技術公開課中介紹了京東在資料中心機架伺服器的液冷設計和實踐

液冷的系統架構分為一次側和兩次側,通過板式換熱器完成「液體到液體」 內外交換。冷量控制單元cdu把冷液體bump推動到機架伺服器內服通過冷板與cpu實現二次熱交換,熱液體帶走機架內的熱量回到cdu的板式換氣器與外部液體交換熱量,重新變為冷液體。

液冷系統的關鍵部件會根據系統的實際工況選擇最適合的設計方案。cpu液冷板、記憶體液冷板、連線軟管、節點內內液器、液漏監測等。其中最重要的是設計冷板的不同fin和液體出入口設計實現最優的液冷方案,另外風冷和液冷可能共存的現狀下,京東創新地設計了兩者相容的節點內分液器,液冷導管製管封裝尺寸和風扇封裝尺寸完全相同,在支援cpu功耗較低的主機板時可採用風冷方案,如果系統cpu功耗較高,可以直接無縫公升級到液冷方案,實現風冷和液冷模式的自由切換。

另外針對關鍵部件的漏液風險,京東選用液漏感應繩監測方案,感應繩布置在液冷系統的流道上。當任何乙個地方發生洩露,感測器可以檢測到電壓阻抗的變化,來判斷是否漏液。通過bmc監測,可以實時實現漏液的查詢和上報,方便遠端管理。

點選閱讀原文

檢視公開課回放。

推薦閱讀:

歡迎點選【京東智聯雲】,了解開發者社群

IE6 網際網路革新路上的絆腳石

可為什麼世界上還有15 到25 的人還在使用那個是在數字舊石器時代 2001年 發明的瀏覽器呢?做為乙個程式設計師,設計師,ui設計師,我真是無法用數字表示為了和過時的瀏覽器進行相容,我和其他的程式設計師花費了多少額外的時間.儘管用ie6來展現web有些困難,網際網路還是在成長.但是隨著html5的...

飛塔的「安立方」如何革新安全產品架構?

本文講的是飛塔的 安立方 如何革新安全產品架構?各大安全廠商的產品發布會,牛君基本都會參加。除了及時跟蹤業內動態,了解最新動向以外,挖掘並傳播行業內有價值的思想 技術和產品,也是安全牛作為資訊保安諮詢機構的職責所在。上週,飛塔 fortinet 發布新一代安全整體解決方案 fortinet secu...