伺服器從零搭建GPU版本的TensorFlow環境

2021-08-28 12:22:44 字數 2739 閱讀 7955

系統資訊:

ubantu18.04,gpu:tesla p100

1. 使用xshell 登入伺服器

2. 安裝nvidia驅動

檢視nvidia資訊的命令

3.安裝cuda toolkit

根據官網的提示命令安裝,或者使用命令

sudo sh cuda*.run
當出現下圖所示情況時候,是cuda的協議,按著enter往下走,一直到100%

接下來,輸入accept,yes,注意接下來的一定要選擇no,否則會出錯(具體為什麼出錯暫時不知道)。

出現這樣的字樣,安裝結束

注:如果第二行出現:toolkit installation failed using unsupported compiler,則將上文的安裝命令後面新增-override即可,即

sudo sh cuda*.run -override
最後,新增環境變數

sudo vi /etc/profile
在開啟的檔案最後新增cuda的位址

export path=/usr/local/cuda-9.0/bin:$path

export ld_library_path=/usr/local/cuda-9.0/lib64:$ld_library_path

儲存,退出,通過source命令使更改生效,並檢查cuda是否安裝完成

source /etc/profile 使更改生效。

nvcc –v 檢查cuda

4.  安裝cudnn

tar -xvzf cudnn-9.0-linux-x64-v7.1.tgz

cd cuda

sudo cp include/cudnn.h /usr/local/cuda/include

sudo cp lib64/libcudnn.* /usr/local/cuda/lib64

cudnn安裝完成。

5. 安裝anaconda

sudo sh anaconda3-5.2.0-linux-x86_64.sh
根據提示,如果出現是否新增環境變數選擇yes,如果選擇了no,可以之後手動新增,方法如下:

sudo vi ~/.bashrc
在最後新增:

export path=$path:/home/username/anaconda3/bin:$path
儲存退出,使用source使命令生效。

source ~/.bashrc
所有這些都做好之後,記得關閉xshell連線,重新連上才能conda資訊。

6.安裝tensorflow-gpu

pip install tensorflow-gpu
測試:

import tensorflow as tf

hello = tf.constant('hello, tensorflow!')

sess = tf.session()

print(sess.run(hello))

出現如下log資訊,則說明環境搭建ok.

7. 為伺服器新增普通使用者

sudo useradd -m -s /bin/bash username

sudo passwd username #為這個使用者設定密碼

刪除使用者

sudo userdel -r username
備註:參考**:

Ubuntu上搭建GPU伺服器

在ubuntu系統的伺服器上搭建gpu環境 1.安裝顯示卡驅動 安裝 sudo nvidia linux run no opengl files no x check驗證 出現此圖表示安裝成功。2.安裝cuda 安裝 sudo sh cuda 10.0.130 410.48 linux.run cu...

gpu伺服器開發環境搭建

參考連線 檢查驅動列表 檢視建議版本 檢查gpu是否支援cuda 檢視型號 去 輸入1db6,可以得到顯示卡型號 直接安裝推薦版驅動 sudo ubuntu drivers autoinstall重啟電腦測試驅動是否啟動 有這樣的反饋表示正常啟動了。wget依次輸入enter yes yes no ...

搭建GPU伺服器遇到的問題

系統 ubuntu16.04伺服器版 1 遠端登入後,終端無tab鍵補齊命令 解決 xfwm4 settings,2 新建使用者新增到sudoers 注意 用roor使用者更改,若存在root使用者,su root 若不存在sudo i a 使用adduser建立使用者會建立使用者目錄的資訊 add...