Stable Baselines 使用者嚮導 開始

2021-09-25 15:13:13 字數 1143 閱讀 2589

stable baselines官方文件中文版 github

csdn

嘗試翻譯官方文件,水平有限,如有錯誤萬望指正

大多數強化學習演算法包都試圖採用sklearn風格語法。

下面是乙個簡單的案例,展示如何在cartpole環境中訓練和執行ppo2.

import gym

from stable_baselines.common.policies import mlppolicy

from stable_baselines.common.vec_env import dummyvecenv

from stable_baselines import ppo2

env = gym.make(

'cartpole-v1'

)env = dummyvecenv(

[lambda

: env]

)# the algorithms require a vectorized environment to run

model = ppo2(mlppolicy, env, verbose=1)

model.learn(total_timesteps=

10000

)obs = env.reset(

)for i in

range

(1000):

action, _states = model.predict(obs)

obs, rewards, dones, info = env.step(action)

env.render(

)

或者,如果環境已在gym註冊、策略也已註冊,僅僅用liner訓練乙個模型:

# 用一行**定義並訓練乙個rl agent

實現匿名使用者向註冊使用者遷移

global.asax web.config csusing system using system.data using system.configuration using system.web using system.web.security using system.web.ui usin...

微博公告稱將向頭部使用者和會員使用者開放評論管理功能

techweb報道 今日新浪微博正式發布公告,宣布即將開放評論管理www.cppcns.com功能,該功能可對微博下方留言進行審核放出,也就是說未來在一些微博下方的留言區里,使用者留言並不會第一時間顯示,而是需要官方進行審核後才能提取至前台。該功能主要針對一些敏感性話題,在必要時使用者可啟動此功能,...

知名越獄黑客向蘋果宣戰 收集使用者iOS裝置崩潰報告

今天稍早些時候,知名iphone黑客團隊 chronic dev team 成員posixninja通過推特宣布今天將在綠毒的頁面上做出一些更新,大家期盼可能是ios 5完美越獄即將出現,讓不少朋友興奮了一下。然而經過幾個小時的等待,綠毒greenpois0n.com頁面果然出現了更新,可卻不是io...