AI入駐資料中心 你的企業預留好位置了嗎?

2021-09-23 07:02:26 字數 2614 閱讀 6671

對ai應用程式來說,時機已經成熟。但在企業資料中心實施人工智慧時會對網路、儲存和計算基礎設施造成障礙。

儘管人工智慧的概念自50年代以來一直存在,但它在it領域的主流應用程式剛剛開始出現。根據gartner的研究,到2023年,深度學習和人工智慧等工作量將成為資料中心設計和架構的重要因素。

ai應用程式將影響每乙個垂直行業和工業領域,因此採取積極的措施來規劃、構建和培育資料中心的深度學習(deep learning)和人工智慧實踐非常重要。

大多數組織還沒有實施ai。在大多數情況下,超大規模公共雲提供商(如google和amazon web services)都是早期採用者,而絕大多數終端使用者都在起步階段就舉步維艱。

gartner研究總監chirag dekate表示:「由於這是個持續變化的目標,很難初始化開發ai和深度學習環境的實踐。這個想法是驚人的,但是當您著手開發和設計解決方案時,您就開始遇到問題了,而且這是很多終端使用者當前所處的位置。」

來自儲存的挑戰

深度學習和ai應用程式需要大量的資料來訓練、測試和驗證神經網路演算法,這可能為資料中心管理員帶來儲存挑戰。

dekate表示:「如果您的機器學習演算法基於回歸,您可以使用有限的資料集,但是對於更先進的**值神經網路生態系統,您會逐漸遇到規模問題。傳統的網路連線儲存架構可以交付即時的結果,方便部署和開箱即用的效率,但它們也會在i/o擴充套件和延遲方面顯示出問題。

部分初創公司正在嘗試高頻寬並行檔案系統,以增加吞吐量並實現規模化,但這些還都只能算是外圍方法,dekate表示。

並行檔案系統涉及從元資料伺服器到儲存目標的許多移動部件,必須進行優化、調整和除錯以最高效率執行。他說:「它們[並行檔案系統]是非常複雜的,需要經歷嚴苛的考驗。」

然而,大資料分析——另一項需要大量資料的計畫——已經為許多it組織提供了乙個平台,能夠重新調整儲存策略。

供職於451 research的研究經理christian perry表示:「當ai成為企業可部署的現實時,從儲存的角度來看,由於大資料和分析的原因,容量方面已經解決了。物聯網也被寄予期望在特定組織驅動大規模應用的規劃,我認為基礎設施已經具有處理大型儲存需求的能力。」

來自網路的挑戰

深度學習框架的有限性產生了規模方面的挑戰——對於可擴充套件性的網路架構,效能明顯超出單一計算節點。為了規模化以提供更高的效率,管理員必須公升級和改進他們的網路,但大多數人還沒有將此舉當做他們的首要任務。

dekate說:「如果您仔細觀察深度學習演算法,會發現它們的溝通密集度非常之高。嘗試為這樣乙個聊天應用程式堆疊構建解決方案對於組織如何著手開始將是非常困難的。」

隨著資料中心網路架構師為ai準備其基礎架構,他們必須優先考慮可擴充套件性,這將需要高頻寬、低延遲的網路和像infiniband或omni-path這樣的創新型架構。

關鍵是為實現自動化而保證所有選項的開放性,perry說。自動資料中心基礎設施管理技術的市場正在快速成熟,這表明自動化在資料中心行業越來越被廣泛地接受。

perry說:「還有自動化功能已經具備應用條件,這將有助於為ai的引入奠定基礎。」

來自計算方面的挑戰

資料中心的計算端對ai應用程式的實施面臨著異常嚴峻的挑戰。基於cpu的環境可以處理絕大多數機器學習和ai工作負載,從隨機森林回歸(random forest regression)到集群。但當it深入到深度學習能力之中,這需要遍歷多個大型資料集並部署可擴充套件的神經網路演算法,那麼基於cpu的生態系統可能還不夠。為了提供計算能力,it部門必須整合如nvdia gpu、advanced micro devices gpu和intel xeon phi等技術。

「您需要混合或異構架構,其核心處理器由專用加速器填充,為您的應用程式提供更大的計算密度和更高的吞吐量,」dekate說。

實施gpu還使管理員能夠優化資料中心基礎架構以實現功率效率。當管理員將基於gpu的生態系統進行單一節點特別擴大時,它們對電源的需求將更加迫切。

google等超大規模**商已認識到這一需求;該公司負責ai業務的機構deepmind將將其資料中心冷卻所需的能源降低了40%。但是,在更廣泛的市場中幾乎所有的企業資料中心都缺乏google具備的資源,將無法複製這一模式來解決效率問題。

對於具有傳統生態系統的大多數企業來說,實施這些創新技術不僅複雜—同時**昂貴。例如,搭載了最新xeon phi的晶元**高達6,294美元—它是英特爾迄今為止最昂貴的晶元。而想要整合深度學習能力的it團隊不僅僅需要乙個晶元,他們需要高密度的加速卡。這些高密度計算配置可用於超大規模環境,醫療保健機構、金融服務等。

dekate說:「我們已經看到高密度產品的應用—大約2個cpu配上8個gpu的比例密度。這代表著在此環境中,某一伺服器節點上某一伺服器單元的成本可能高達15萬美元。」

有辦法減輕這些技術的**格標籤。許多組織使用公有雲,在某些情況下,使用ibm watson,在進行任何深層的內部承諾之前,測試ai應用程式的可靠性。

此外,伺服器更新的時間範圍遠遠超出傳統的三年更新時間表,perry說。現在,許多組織每五到七年更新伺服器。因此,他們的it預算也得到擴充套件,可以應用到能夠滿足內部所需的**基礎設施之上。

perry說:「我們已經看到這在融合基礎架構上的應用,而且超級融合基礎架構也正在應用。沒錯,這都是非常昂貴的門檻,但轉型是非常值得的。」

支撐AI的高效能資料中心網路架構如何設計?

近日,工信部印發 促進新一代人工智慧產業發展三年行動計畫 2018 2020年 意在加快人工智慧從戰略到落地,推動人工智慧和實體經濟深度融合。在新工業革命的背景下,大資料 計算力 演算法等快速迭代,正驅動人工智慧進入新階段。2017年q3,全球ai公司融資金額突破77億美元,是2012年的70餘倍。...

做好災備,為你的資料中心留條後路

很多企業都在考慮乙個問題,就是如何建立乙個靈活的 有彈性的資料中心。這其中包括確保計算機系統和其他重要裝置的有序恢復,保證所有供電系統的正常運轉等等。為實現這一目標,我們需要乙個完善的災難恢復規劃。假設你希望資料中心的恢復規劃良好,你必須將資料中心看做業務流程,其中有大量相互依賴且變化的部分。並且,...

夏天來了,你的資料中心應該跟著熱起來

英特爾的傑夫 克勞斯表示,如果天氣炎熱,那麼你的資料中心就應該跟著熱起來。隨著夏季在北半球大行其道,資料中心經理們正忙著處理乾旱和高溫。雖然這個夏天的氣溫預計將超過歷史平均值,但對於資料中心經理來說,最重要的事情莫過於知曉外界天氣和環境的改變將會如何影響你的製冷計畫。對此,記者採訪了英特爾資料中心事...