如何建立乙個GPU加速的研究計算集群 一

2021-06-28 21:48:25 字數 1211 閱讀 4853

世界上某些最快的計算機是集群組成的。集群是有多個計算機通過高速網路連線起來的乙個計算系統。集群計算機比單臺計算機可以達到更高的可用性,可靠性和伸縮性。隨著對基於gpu的高效能計算採用越來越廣,英偉達gpu逐漸成為世界上最厲害的超級計算集群的一部分。世界前500的超級計算機中,包括差不多50個採用了英偉達的的gpu,並且目前世界上最快的計算機泰坦,使用了大約18000個英偉達克卜勒gpu。

在這個帖子中,我將會一步一步的介紹設計、部署和管理乙個小型的gpu集群整個過程。我會介紹gpu集群的組成部分以及管理的軟體技術堆疊。目標是使用乙個最少的代價建立乙個gpu集群。

構建乙個小型研究的gpu計算集群的動機是多種多樣的:

1.對生產系統的效能有乙個感覺和預估。

2.將你的應用移植到gpu分布式計算上去。

3.調整gpu和cpu的平衡。

4.將集群作為乙個開發平台

5.對乙個小型的gpu集群是相對小的。

下圖展示了建立乙個小型gpu集群的步驟。

選擇硬體-》確保空間和電源功率還有冷卻-》組裝-》管理節點安裝-》計算節點安裝-》管理監控-》執行程式

我們現在了解下這個過程的細節:

選擇硬體

選擇正確的硬體共有兩個步驟:

步驟一:

a).節點硬體配置。這是集群節點的詳細規格:每個節點包含下面的元件。

1.cpu

2.主機板,該主機板擁有兩個pcie x16 gen2/3 介面。主要是為了teslagpu.另外要有乙個pciex8的插槽,主要是為了其他的顯示卡的用的。

b).兩個網絡卡插口

c).最少最少16-24g ddr3 ram

d).電源。應該能夠扛得住cpu和gpu的消耗。

e).二級儲存,固態硬碟或者是sata。

gpu板子應該能夠允許兩個pci插槽插入,所以確保這些插槽能夠分開插下。

步驟二:選擇正確的gpu。一旦你決定好了機器的配置,你應該也決定好了用哪個晶元的gpu。gpu的品牌是非常重要的。基於克卜勒的英偉達特斯拉gpu有兩個主要的品牌。

a). 特斯拉工作站產品(c系列) 是主動降溫的gpu板子,你只用將他們插入到桌面計算機中就行了。它需要兩個6針的電源或者乙個8針的電源。

b).伺服器產品(m系列)是被動降溫的gpu板子,安裝在單獨的伺服器上。

2.分配空間,電力和降溫。

這一部分不再細說,主要是合理安排機箱和機架的空間。

3.組裝物理硬體

如何建立乙個gpu加速的研究計算集群二

如何建立乙個GPU加速的研究計算集群 二

建議使用開源的作業系統 rocks linux distribution來安裝主節點,rocks 是乙個高可定製化,易於安裝的適合集群計算的作業系統,它預設安裝集群計算組建例如mpi,安裝文件位址如下 rocks user guide,這裡我僅僅羅列下基本的安裝步驟 根據第三章的步驟進行基於cd的安...

如何建立乙個模組 如何起步建立乙個童裝品牌?

自從有了童裝創業的想法,腦海中蹦出無數想法。從0到1建立乙個品牌,首先要問清楚自身,理想中這將是乙個怎樣的品牌?展示出來是怎樣的形象?希望消費者對品牌產生怎樣的感受?最終實現品牌的什麼目標?這些問題,並不是一開始就能確定答案,也不會是一成不變。我們應該從建立品牌,到運營 維護品牌,都對這些問題保持思...

如何建立乙個dblink

建立乙個dblink的詳細步驟 1 啟動伺服器資料庫 2 建立乙個本地net服務名 oracle oracle92 configuration and migration tools net configuration assistant 3 登入sqlplus 用本地帳戶登入 4 建立dblink...