前天伺服器公升級,由cuda9.0公升級到了cuda9.2。相應地cudnn7.0.5公升級到了cudnn7.6.5。這導致了我的tensorflow1.6版本的**執行不了。
首先明白系統使用者root
、普通使用者的區別,它們分別對應系統環境變數
、使用者環境變數。
學校伺服器有多個使用者,使用者沒有作業系統使用者的許可權!
1.首先進行嘗試的是將cuda9.2改回cuda9.0版本。這個需要在~/.bashrc(使用者環境變數)下加入cuda9.0的路徑
vim ~/.bashrc
可以進入/usr/local檢視下有哪些cuda版本,這個目錄是root使用者的,你無權進行操作,如果你是root使用者倒是可以將cuda軟連線改為cuda-9.0,目前是指向cuda9.2的
所以你操作使用者個人的環境變數設定~/.bashrc(一般路徑是 /home/使用者名稱/.bashrc,搞錯了可能會覺得怎麼設定了還是沒有效果 = =)
使配置生效
source ~/.bashrc
檢視cuda版本
但是執行tensorflow**訓練卻出現cudnn版本是7.6.5而**需要的是7.0.5版本的錯誤。已經設定了cuda9-0(cudnn一般也是對應的版本,而且普通使用者是沒有許可權取安裝cudnn的)。
如此奇怪?
折騰半天,退出當前使用者,然後重新登入,使其生效!
折騰半天,退出當前使用者,然後重新登入,使其生效!
折騰半天,退出當前使用者,然後重新登入,使其生效!
然後就沒問題了。
2.anaconda環境,我啟用了我tensorflow那個環境tf1.60.命令列匯入tensorflow包是沒有問題的,那就說明可以找到。然而我的**(sh指令碼檔案,裡面呼叫了python檔案)卻報錯顯示沒有tensorflow包。
奇怪,稀奇古怪,不合邏輯。
又是改環境變數,又是轉殖環境,就差完整重新搭建環境了。
我把anaconda的使用者環境變數注釋了,還是可以使用conda命令。?不對勁!
是沒有環境變數生效?
於是退出重新登入,輸入conda,提示沒有該命令。
恍然大悟,原來是沒有生效。 網上說的 source ~/.bashrc 使其生效,並沒有生效。
取消anaconda環境變數注釋,使用conda命令,正常!開始訓練tensorflow**,正常!
.bashrc檔案內容如下:
1.linux下的使用者環境變數配置問題跟系統環境變數有區別,普通使用者進行設定~/.bashrc。要生效最好是退出使用者再重新登入。不然會出現一些奇奇怪怪的問題。2.公共伺服器多使用者情況下,annaconda有公用的,普通使用者也可以安裝自己的ananconda,需要設定使用者環境變數。
3.cuda/cudnn問題,在伺服器公升級過程中,如果保留了舊的cuda版本,那麼普通使用者需要修改環境變數~/.bashrc,將舊版本的cuda路徑加入環境變數。同時記得退出重新登入,使其生效(不然訓練出錯發現對應的cudnn版本還是公升級的cudnn版本)。nvcc -v檢視對應cuda版本。
linux git伺服器搭建,多使用者協作
1 安裝git 2 建立使用者 user add m username m不會在home目錄下建立使用者目錄 user add m username1 user add m username2 2 建立使用者組git groupadd git 建立git使用者組,方便統一管理許可權 4 將使用者加入...
jupyterhub單伺服器多使用者模式安裝
首先安裝python3以上版本。執行以下命令 增加使用者用於登入 useradd hanks passwd hanks yum install git pip install git 執行以下命令生成配置檔案 jupyterhub generate config 修改配置檔案 增加白名單及管理員使用...
winServer伺服器設定多使用者同時遠端訪問!
1 按win r鍵,在彈出的面板中輸入gpedit.msc,進入到 本地組策略編輯器 2 依次選擇計算機配置 管理模板 windows元件 遠端桌面服務 遠端桌面會話主機 連線,雙擊選擇 將遠端桌面服務使用者限制到單獨的遠端桌面服務會話 3 在 將遠端桌面服務使用者限制到單獨的遠端桌面服務會話 面板...