谷歌發布開源Dopamine 2 0

2021-09-10 16:54:38 字數 513 閱讀 6589

2019-02-10 18:41:46

去年八月,谷歌發布了 dopamine,這是一款靈活的強化學習框架。初始版本專注於特定型別的 rl 研究:基於 arcade 學習環境(乙個成熟的、易於理解的基準)和四個基於值的** dqn、c51、rainbow **的簡化版本以及隱式分位數網路**實現的。

據官方部落格介紹:

此外,新版本還包括兩個經典控制環境的預設配置:cartpole 和 acrobot;在這些環境中,使用者可以在幾分鐘內訓練 dopamine **。與標準 atari 2600 遊戲的訓練時間(標準 gpu 上大約 5 天)相比,這些環境允許研究人員在更大規模的 atari 遊戲上測試比之前更快地迭代研究思路。新版本還包括乙個合作實驗室,演示如何在 cartpole 和 acrobot 上訓練**。最後,gympreprocessing 類為如何將 dopamine 與其他自定義環境一起使用提供了示例。

dopamine谷歌 重磅開源強化學習 工具箱

多巴胺是強化學習演算法快速原型製作的研究框架。多巴胺是強化學習演算法快速原型製作的研究框架。它旨在滿足乙個小的,易於理解的 庫的需求,使用者可以自由地嘗試瘋狂的想法 推測性研究 本著這些原則的精神,第乙個版本專注於支援應用於atari 2600遊戲的最先進的單gpu rainbow hessel等,...

谷歌發布世界上首個開源的HTML5 SIP客戶端

sdp是會話描述協議的縮寫,是描述流 初始化引數的格式,由ietf作為rfc 4566頒布。流 是指在傳輸過程中看到或聽到的內容。sip是一項類似於http的基於文字的協議。比較有意義的是,sip可以減少應用特別是高階應用的開發時間。而且,由於http和sip之間存在相似之處,已有許多人準備採用si...

谷歌發布世界上首個開源的HTML5 SIP客戶端

sdp是會話描述協議的縮寫,是描述流 初始化引數的格式,由ietf作為rfc 4566頒布。流 是指在傳輸過程中看到或聽到的內容。sip是一項類似於http的基於文字的協議。比較有意義的是,sip可以減少應用特別是高階應用的開發時間。而且,由於http和sip之間存在相似之處,已有許多人準備採用si...