stable baselines官方文件中文版 github大多數強化學習演算法包都試圖採用sklearn風格語法。csdn
嘗試翻譯官方文件,水平有限,如有錯誤萬望指正
下面是乙個簡單的案例,展示如何在cartpole環境中訓練和執行ppo2.
import gym
from stable_baselines.common.policies import mlppolicy
from stable_baselines.common.vec_env import dummyvecenv
from stable_baselines import ppo2
env = gym.make(
'cartpole-v1'
)env = dummyvecenv(
[lambda
: env]
)# the algorithms require a vectorized environment to run
model = ppo2(mlppolicy, env, verbose=1)
model.learn(total_timesteps=
10000
)obs = env.reset(
)for i in
range
(1000):
action, _states = model.predict(obs)
obs, rewards, dones, info = env.step(action)
env.render(
)
或者,如果環境已在gym註冊、策略也已註冊,僅僅用liner訓練乙個模型:
# 用一行**定義並訓練乙個rl agent
實現匿名使用者向註冊使用者遷移
global.asax web.config csusing system using system.data using system.configuration using system.web using system.web.security using system.web.ui usin...
微博公告稱將向頭部使用者和會員使用者開放評論管理功能
techweb報道 今日新浪微博正式發布公告,宣布即將開放評論管理www.cppcns.com功能,該功能可對微博下方留言進行審核放出,也就是說未來在一些微博下方的留言區里,使用者留言並不會第一時間顯示,而是需要官方進行審核後才能提取至前台。該功能主要針對一些敏感性話題,在必要時使用者可啟動此功能,...
知名越獄黑客向蘋果宣戰 收集使用者iOS裝置崩潰報告
今天稍早些時候,知名iphone黑客團隊 chronic dev team 成員posixninja通過推特宣布今天將在綠毒的頁面上做出一些更新,大家期盼可能是ios 5完美越獄即將出現,讓不少朋友興奮了一下。然而經過幾個小時的等待,綠毒greenpois0n.com頁面果然出現了更新,可卻不是io...