世界上某些最快的計算機是集群組成的。集群是有多個計算機通過高速網路連線起來的乙個計算系統。集群計算機比單臺計算機可以達到更高的可用性,可靠性和伸縮性。隨著對基於gpu的高效能計算採用越來越廣,英偉達gpu逐漸成為世界上最厲害的超級計算集群的一部分。世界前500的超級計算機中,包括差不多50個採用了英偉達的的gpu,並且目前世界上最快的計算機泰坦,使用了大約18000個英偉達克卜勒gpu。
在這個帖子中,我將會一步一步的介紹設計、部署和管理乙個小型的gpu集群整個過程。我會介紹gpu集群的組成部分以及管理的軟體技術堆疊。目標是使用乙個最少的代價建立乙個gpu集群。
構建乙個小型研究的gpu計算集群的動機是多種多樣的:
1.對生產系統的效能有乙個感覺和預估。
2.將你的應用移植到gpu分布式計算上去。
3.調整gpu和cpu的平衡。
4.將集群作為乙個開發平台
5.對乙個小型的gpu集群是相對小的。
下圖展示了建立乙個小型gpu集群的步驟。
選擇硬體-》確保空間和電源功率還有冷卻-》組裝-》管理節點安裝-》計算節點安裝-》管理監控-》執行程式
我們現在了解下這個過程的細節:
選擇硬體
選擇正確的硬體共有兩個步驟:
步驟一:
a).節點硬體配置。這是集群節點的詳細規格:每個節點包含下面的元件。
1.cpu
2.主機板,該主機板擁有兩個pcie x16 gen2/3 介面。主要是為了teslagpu.另外要有乙個pciex8的插槽,主要是為了其他的顯示卡的用的。
b).兩個網絡卡插口
c).最少最少16-24g ddr3 ram
d).電源。應該能夠扛得住cpu和gpu的消耗。
e).二級儲存,固態硬碟或者是sata。
gpu板子應該能夠允許兩個pci插槽插入,所以確保這些插槽能夠分開插下。
步驟二:選擇正確的gpu。一旦你決定好了機器的配置,你應該也決定好了用哪個晶元的gpu。gpu的品牌是非常重要的。基於克卜勒的英偉達特斯拉gpu有兩個主要的品牌。
a). 特斯拉工作站產品(c系列) 是主動降溫的gpu板子,你只用將他們插入到桌面計算機中就行了。它需要兩個6針的電源或者乙個8針的電源。
b).伺服器產品(m系列)是被動降溫的gpu板子,安裝在單獨的伺服器上。
2.分配空間,電力和降溫。
這一部分不再細說,主要是合理安排機箱和機架的空間。
3.組裝物理硬體
如何建立乙個gpu加速的研究計算集群二
如何建立乙個GPU加速的研究計算集群 二
建議使用開源的作業系統 rocks linux distribution來安裝主節點,rocks 是乙個高可定製化,易於安裝的適合集群計算的作業系統,它預設安裝集群計算組建例如mpi,安裝文件位址如下 rocks user guide,這裡我僅僅羅列下基本的安裝步驟 根據第三章的步驟進行基於cd的安...
如何建立乙個模組 如何起步建立乙個童裝品牌?
自從有了童裝創業的想法,腦海中蹦出無數想法。從0到1建立乙個品牌,首先要問清楚自身,理想中這將是乙個怎樣的品牌?展示出來是怎樣的形象?希望消費者對品牌產生怎樣的感受?最終實現品牌的什麼目標?這些問題,並不是一開始就能確定答案,也不會是一成不變。我們應該從建立品牌,到運營 維護品牌,都對這些問題保持思...
如何建立乙個dblink
建立乙個dblink的詳細步驟 1 啟動伺服器資料庫 2 建立乙個本地net服務名 oracle oracle92 configuration and migration tools net configuration assistant 3 登入sqlplus 用本地帳戶登入 4 建立dblink...