Ubuntu Ray 分布式訓練

2021-10-11 02:23:09 字數 514 閱讀 1808

sudo apt install awscli
建立 anaconda 環境並保持 python 環境中的以下幾項在所有機器上均完全相同

python版本號

boto3版本號

torch版本號

torchvision版本號

ray版本號

在要執行**的機器上開啟配置好的 python 環境,執行

ray start --head --port=
並記錄需要在其他主機上輸入的密碼

在要提供算力的機器上開啟配置好的 python 環境,執行前一步得到的命令

ray start --address=
在要執行**的機器上執行**,並修改初始化

ray.init(address="auto")
ray stop

分布式訓練

分布式訓練 深度學習中,越來越多的場景需要分布式訓練。由於分布式系統面臨單機單卡所沒有的分布式任務排程 複雜的資源並行等問題,因此,通常情況下,分布式訓練對使用者有一定的技術門檻。在 oneflow 中,通過頂層設計與工程創新,做到了 分布式最易用,使用者不需要特別改動網路結構和業務邏輯 就可以方便...

分布式 分布式鎖

本質是利用redis的setnx 方法的特性來加鎖,setnx 即key不存在則設定key,否則直接返回false,要求在分布式系統中使用同乙個redis服務,以下提供兩種解決方案 1 直接使用redistemplate 這其實並不能完全保證高併發下的安全問題,因為可能在鎖過期之後該執行緒尚未執行完...

分布式 分布式事務

是資料庫執行過程中的乙個邏輯單位,由乙個有限的資料庫操作序列構成。事務的acid四大特性 原子性 atomicity 事務作為乙個整體被執行。一致性 consistency 從乙個一致的狀態轉換到另乙個一致的狀態。隔離性 isolation 多個事務併發執行時,併發事務之間互相影響的程度。永續性 d...