監視視訊記憶體:我們設定為每 10s 顯示一次視訊記憶體的情況:
$ watch -n 10 nvidia-smi
顯示如下:
gpu:gpu 編號;
name:gpu 型號;
persistence-m:持續模式的狀態。持續模式雖然耗能大,但是在新的gpu應用啟動時,花費的時間更少,這裡顯示的是off的狀態;
fan:風扇轉速,從0到100%之間變動;
temp:溫度,單位是攝氏度;
perf:效能狀態,從p0到p12,p0表示最大效能,p12表示狀態最小效能(即 gpu 未工作時為p0,達到最大工作限度時為p12)。
pwr:usage/cap:能耗;
memory usage:視訊記憶體使用率;
bus-id:涉及gpu匯流排的東西,domain:bus:device.function;
disp.a:display active,表示gpu的顯示是否初始化;
volatile gpu-util:浮動的gpu利用率;
uncorr. ecc:error correcting code,錯誤檢查與糾正;
compute m:compute mode,計算模式。
通過郵箱監控gpu溫度
本文主要用於gpu溫度監控,在進行深度學習網路訓練時,當散熱不好時,gpu會出現溫度過高的情況。通過qq郵箱傳送gpu溫度等相關資訊。一 新增外部smtp伺服器 1.獲取qq郵箱的授權碼,登入qq郵箱 按上圖指示即可生成授權碼。2.修改 etc s nail.rc檔案 sudo gedit etc ...
GPU 使用持續監控
nvidia smi 這是經常用到的gpu監控命令,如果我們想實時監控gpu使用情況,可用 nvidia smi l n 數值n指間隔時間 s 缺點是監控圖表是不斷更新出來的,如果命令視窗還有上下文要看就不太方便 個人感受 gpustat 這個命令也可以檢視gpu使用情況 它可以通過pip 安裝 p...
gpustat Linux下面監控GPU狀態
nvidia smi是 nvidia 顯示卡命令列管理套件,基於 nvml 庫,旨在管理和監控 nvidia gpu 裝置。nvidia smi 的輸出 這是 nvidia smi 命令的輸出,其中最重要的兩個指標 視訊記憶體占用 gpu 利用率 視訊記憶體占用和 gpu 利用率是兩個不一樣的東西,...