這個很簡單,在網上就有很多的安裝教程,但我這裡也稍微講下吧。我這裡用的是ubuntu的系統。
首先登陸root賬號
cd caffe/
mv makefile.config.example makefile.config
修改makefile.config:
vi makefile.config
如果電腦上沒有gpu,需要把其中的cpu_only開啟,就是去掉注釋。
下面這個是vi的一些操作指令,本人新手,所以想新手都可能會用到。
編譯caffe:
make -j
對了,本人一開始用的電腦比較舊多執行緒貌似不支援,編譯就用的是
make all
有很多教程是在caffe安裝之前做這部的,但是我說了,我之前的caffe是已經裝好的cpu版的,所以之後想改,就自己找了資料,進行修改了。因為用的是多gpu的伺服器,肯定要並行運算啊,不然要那麼多gpu幹嘛?所以要並行就要安裝nccl,不然是不行的。
安裝步驟:
git clone
cd nccl
sudo make install -j4
nccl 庫和檔案頭將安裝在 /usr/local/lib 和 /usr/local/include 中。
之前說了,很多教程是在編譯caffe之前安裝nccl的,為什麼呢,因為修改了makefile.config啊!!
因為要進行並行使用,所以在makefile.config中要把use_nccl=1前面的注釋去掉,同樣使用vi命令啦。
這樣修改儲存後,接下來就是重新編譯caffe了。
首先,是將之前的clean掉了,輸入:
make clean
然後,重新編譯:
make -j
到這裡之後,我就試著使用:
./build/tools/caffe train -solver=examples/mnist/lenet_solver.prototxt -gpu all
進行測試啦,結果果然出錯了。。。。。
具體的錯誤就是:
error while loading shared libraries: libnccl.so.1: cannot open shared object file: no such file or directory
說是沒有這個檔案,我又開始搜啊搜。。。
結果是在一篇部落格找到解決方案:
具體的原因說是:但執行需要呼叫該共享庫的程式的時候, 程式按照預設共享庫路徑找不到該共享庫檔案。
方法很簡單,就是用root賬戶執行下:
ldconfig
這個命令,就好了,對了,第乙個是l的小寫,不是i的大寫哦。
對了,這個部落格位址是:
有興趣可以看看的。
我解決好這個問題後又開心的執行上面的:
./build/tools/caffe train -solver=examples/mnist/lenet_solver.prototxt -gpu all
結果就是又出錯了啊!!!錯誤就是下面這個:
check failed: result == ncclsuccess (1 vs. 0) unhandled cuda error
大概看了一下,意思就是nccl沒有成功,我沒有再上網亂搜,而是想起來之前看的gpu伺服器的介紹,想起來我這台伺服器上有9塊gpu,但實際上只有8塊是真的能使用的,另一塊是伺服器自己的用來顯示什麼的一些其他功能的,所以我就想是不是那塊的原因,於是我就修改了下命令:
這次終於沒有出錯,開始了它該做的事情。
(所以大家做事要耐心。。。)
其實我就是個新手,就是蒐集了些資料,想方便自己,也方便別人看看,如果有人看得到的話。。。
GPU雲伺服器
您只需要專注於深度學習本身,無需安裝任何深度學習環境,零設定開啟您的深度學習之旅。極客雲,為深度學習而生,您只需簡單幾步操作即可測試和訓練您的模型。上傳的資料將會被掛載到 連線後伺服器的 data 目錄下 類似linux命令的使用方法 不要在 data追直接解壓,否則很慢 no module nam...
租用GPU伺服器
如果是長期使用,建議自己購買帶顯示卡的硬體伺服器,這樣綜合性比價最高 如果是短期或臨時使用,建議租用雲伺服器,方便快捷,隨用隨買,節省成本,那麼租用雲伺服器,相比 gpu 傳統線下應用,雲上 gpu 主要服務以海量資料為特徵的高效能計算,有下面三大應用領域 圖形影象處理 gpu 的傳統用途,在雲上面...
linux伺服器如何指定gpu以及用量
from 在終端執行程式時指定gpu cuda visible devices 0 python your file.py 指定gpu集群中第一塊gpu使用,其他的遮蔽掉 cuda visible devices 1 only device 1 will be seen cuda visible d...