如何建立乙個GPU加速的研究計算集群 二

2021-08-20 20:58:26 字數 1070 閱讀 9849

建議使用開源的作業系統 rocks linux distribution來安裝主節點,rocks 是乙個高可定製化,易於安裝的適合集群計算的作業系統,它預設安裝集群計算組建例如mpi, 安裝文件位址如下:rocks user guide,這裡我僅僅羅列下基本的安裝步驟:

根據第三章的步驟進行基於cd的安裝。

安裝nvidia和cuda的環境包以及工具

安裝內部網路網絡卡驅動,具體參考你的網絡卡廠商

nagios® core™是個開源網路監控應用,當網路出錯或者變好的時候,它會根據你的設定而發出告警。 你可以用這裡的說明書連線來安裝它。

nrpe nagios 外掛程式可以讓你在遠端機器上執行nagios外掛程式,這樣你就可以遠端監控資源了,具體安裝說明點這裡

通過一下步驟來安裝計算節點的軟體:

在主節點上,開啟乙個命令列,輸入如下命令:insert-ethers選擇 「compute nodes」 要新增的節點

將rocks cd作為第乙個啟動盤,開啟計算節點機器的電源,或者你可以執行網路安裝也行。

計算節點將會連線主節點,開始安裝軟體

安裝 nrpe 包,具體說明點這裡。

當你把主節點和所有其他的計算節點都安裝好,基本上大功告成,只欠東風了。對,使用之前得先在集群上安裝監控和管理軟體。此小節我將介紹gpu得管理和監控工具軟體包。

nvidia的gpu驅動包含了也給這個東東:nvidia-smi, 他是乙個nvidia的系統管理軟體,提供各種gpu系統資訊,如下:

監控矩陣: gpu 溫度, 主機溫度;

系統資訊:韌體版本,配置資訊。

系統狀態:風扇狀態,gpu故障,電源錯誤,ecc錯誤等。

nvidia-smi 支援為任何計算節點進行配置。主要能力如下:

預設計算模式:多個主機執行緒可同時使用gpu裝置。

排他程序模式:所有程序中只有乙個cuda上下文。

排他執行緒模式:同時只能有乙個執行緒訪問裝置。

禁止模式:不允許建立任何cuda context. .

nvidia-smi 也支援對ecc開關設定,不需要ecc的應用可以關閉此開關,以獲得更高的記憶體頻寬 。

—未完待續—–

如何建立乙個GPU加速的研究計算集群 一

世界上某些最快的計算機是集群組成的。集群是有多個計算機通過高速網路連線起來的乙個計算系統。集群計算機比單臺計算機可以達到更高的可用性,可靠性和伸縮性。隨著對基於gpu的高效能計算採用越來越廣,英偉達gpu逐漸成為世界上最厲害的超級計算集群的一部分。世界前500的超級計算機中,包括差不多50個採用了英...

如何建立乙個模組 如何起步建立乙個童裝品牌?

自從有了童裝創業的想法,腦海中蹦出無數想法。從0到1建立乙個品牌,首先要問清楚自身,理想中這將是乙個怎樣的品牌?展示出來是怎樣的形象?希望消費者對品牌產生怎樣的感受?最終實現品牌的什麼目標?這些問題,並不是一開始就能確定答案,也不會是一成不變。我們應該從建立品牌,到運營 維護品牌,都對這些問題保持思...

如何建立乙個dblink

建立乙個dblink的詳細步驟 1 啟動伺服器資料庫 2 建立乙個本地net服務名 oracle oracle92 configuration and migration tools net configuration assistant 3 登入sqlplus 用本地帳戶登入 4 建立dblink...