gym初級 初始gym環境(二)

2021-10-07 16:03:01 字數 1415 閱讀 4655

import gym

env = gym.make(

'cartpole-v0'

)print

(env.action_space)

print

(env.observation_space)

輸出結果為

discrete(2)

box(4,)

意思是動作空間中的動作是離散(discrete)的2個動作,狀態空間中的狀態是4維的陣列

import gym

env = gym.make(

'cartpole-v0'

)print

(env.observation_space.high)

print

(env.observation_space.low)

這一點我的輸出和官網是不同的,我覺得這可能和python和gym版本相關,沒有去糾結

[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38]

[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38]

官網的是

array([ 2.4, inf, 0.20943951, inf])

array([-2.4, -inf, -0.20943951, -inf])

我們在實際使用中,難免會遇到這種情況:我有乙個資料,想判斷它是否在動作空間和狀態空間中

官網的示例程式是這樣的

from gym import spaces

space = spaces.discrete(8)

# 生成了乙個離散空間,空間中的數是

x = space.sample(

)# 從中隨機取樣

assert space.contains(x)

# 判斷x是不是在space中

assert space.n ==

8# space的大小是不是8

那麼我們在gym裡應該怎麼用呢,就比較簡單了

import gym

env = gym.make(

'cartpole-v0'

)assert env.action_space.contains(0)

assert env.action_space.n ==

2assert env.observation_space.contains([0

,0,0

,0])

assert env.observation_space.shape[0]

==4

gym 搭建 RL 環境

gym的呼叫遵從以下的順序 env gym.make x observation env.reset for i in range time steps env.render action policy observation observation,reward,done,info env.ste...

ubuntu16 04 配置gym環境

conda是乙個開源包管理系統和環境管理系統,用於安裝多個版本的軟體包及其依賴關係,並在它們之間輕鬆切換。它適用於linux,os x和windows,是為python程式建立的,但可以打包和分發任何軟體。anaconda是乙個開源的python發行版本,包含了conda python等180多個科...

強化學習 實驗 Gym環境

本節內容參考 白話強化學習 gym是openai團隊提供的乙個簡單的開源專案,可以快速地實現乙個完整的 s a r a s rightarrow a rightarrow r rightarrow a s a r a 首先我們給python環境中安裝gym包 pip install gym下面給出一...