本文主要用於gpu溫度監控,在進行深度學習網路訓練時,當散熱不好時,gpu會出現溫度過高的情況。通過qq郵箱傳送gpu溫度等相關資訊。
一、新增外部smtp伺服器
1.獲取qq郵箱的授權碼,登入qq郵箱
按上圖指示即可生成授權碼。
2.修改/etc/s-nail.rc檔案 (sudo gedit /etc/s-nail.rc )
在/etc/s-nail.rc檔案中新增下面的**
set from=*********@qq.com
set smtp="smtps:"
set smtp-auth=login
set smtp-auth-user=*********@qq.com
set smtp-auth-password=《授權碼》
測試:echo "nihao" | mail -s "test" ******[email protected] (這裡填寫收件人郵箱)
3.編寫python**
# !/usr/bin/python
# -*- coding: utf-8 -*-
import time
import os
import datetime
pause = 100
mail_user="××××××@qq.com" #接受資訊的郵箱
def send_email(content):
sendmas='echo "rain" | mail -s '+content+' '+mail_user
os.system(sendmas)
return true
def get_gpu_temper():
shell_str = "tem_line=`nvidia-smi | grep %` && tem1=`echo $tem_line | cut -d c -f 1` " \
"&& tem2=`echo $tem1 | cut -d % -f 2` && echo $tem2"
result = os.popen(shell_str)
result_str = result.read()
tem_str = result_str.split("\n")[0]
result.close()
return float(tem_str)
while(true):
try:
tem_num = get_gpu_temper()
if tem_num>30: #在這修改溫度
nowtime = datetime.datetime.now().strftime('%y-%m-%d %h:%m:%s')
warning_str ="\""+ nowtime+"current temperature is " + str(tem_num) + "!!!\""
send_email(warning_str)
print("send over")
finally:
time.sleep(pause)
執行上面**需要python環境;在你填寫的郵箱中可以收到如下資訊:
測試階段,把監控溫度的閥值降低些。
如果有疑問可以通過[email protected] 聯絡我。
關於2080ti驅動的安裝,cuda,cudnn,tensorflow-gpu環境的搭建,有需要的可以看下下面的文章:
另外一篇擷取gpu溫度的文章,找不到了,就不在寫出來了。謝謝。
ubuntu監控gpu溫度使用率等資訊
監視視訊記憶體 我們設定為每 10s 顯示一次視訊記憶體的情況 watch n 10 nvidia smi顯示如下 gpu gpu 編號 name gpu 型號 persistence m 持續模式的狀態。持續模式雖然耗能大,但是在新的gpu應用啟動時,花費的時間更少,這裡顯示的是off的狀態 fa...
GPU 使用持續監控
nvidia smi 這是經常用到的gpu監控命令,如果我們想實時監控gpu使用情況,可用 nvidia smi l n 數值n指間隔時間 s 缺點是監控圖表是不斷更新出來的,如果命令視窗還有上下文要看就不太方便 個人感受 gpustat 這個命令也可以檢視gpu使用情況 它可以通過pip 安裝 p...
gpustat Linux下面監控GPU狀態
nvidia smi是 nvidia 顯示卡命令列管理套件,基於 nvml 庫,旨在管理和監控 nvidia gpu 裝置。nvidia smi 的輸出 這是 nvidia smi 命令的輸出,其中最重要的兩個指標 視訊記憶體占用 gpu 利用率 視訊記憶體占用和 gpu 利用率是兩個不一樣的東西,...