Stable Baselines 使用者嚮導開始

stable baselines官方文件中文版 github

csdn

嘗試翻譯官方文件，水平有限，如有錯誤萬望指正

大多數強化學習演算法包都試圖採用sklearn風格語法。

下面是乙個簡單的案例，展示如何在cartpole環境中訓練和執行ppo2.

import gym
from stable_baselines.common.policies import mlppolicy
from stable_baselines.common.vec_env import dummyvecenv
from stable_baselines import ppo2
env = gym.make(
'cartpole-v1'
)env = dummyvecenv(
[lambda
: env]
)# the algorithms require a vectorized environment to run
model = ppo2(mlppolicy, env, verbose=1)
model.learn(total_timesteps=
10000
)obs = env.reset(
)for i in
range
(1000):
action, _states = model.predict(obs)
obs, rewards, dones, info = env.step(action)
env.render(
)

或者，如果環境已在gym註冊、策略也已註冊，僅僅用liner訓練乙個模型：

# 用一行**定義並訓練乙個rl agent
				實現匿名使用者向註冊使用者遷移
global.asax web.config csusing system using system.data using system.configuration using system.web using system.web.security using system.web.ui usin...
				微博公告稱將向頭部使用者和會員使用者開放評論管理功能
techweb報道 今日新浪微博正式發布公告，宣布即將開放評論管理www.cppcns.com功能，該功能可對微博下方留言進行審核放出，也就是說未來在一些微博下方的留言區里，使用者留言並不會第一時間顯示，而是需要官方進行審核後才能提取至前台。該功能主要針對一些敏感性話題，在必要時使用者可啟動此功能，...
				知名越獄黑客向蘋果宣戰 收集使用者iOS裝置崩潰報告
今天稍早些時候，知名iphone黑客團隊 chronic dev team 成員posixninja通過推特宣布今天將在綠毒的頁面上做出一些更新，大家期盼可能是ios 5完美越獄即將出現，讓不少朋友興奮了一下。然而經過幾個小時的等待，綠毒greenpois0n.com頁面果然出現了更新，可卻不是io...

Stable Baselines 使用者嚮導 開始

實現匿名使用者向註冊使用者遷移

微博公告稱將向頭部使用者和會員使用者開放評論管理功能

知名越獄黑客向蘋果宣戰 收集使用者iOS裝置崩潰報告

相關推薦

Stable Baselines 使用者嚮導開始

知名越獄黑客向蘋果宣戰收集使用者iOS裝置崩潰報告