gym冰凍湖環境學習筆記

2021-10-02 14:33:59 字數 1030 閱讀 5779

冰凍湖圖例(以4*4為例):

s為起始位置,f是可通過的冰凍湖,h是會落下去的洞,g是要到達的目標。

狀態個數為16,指代16個方格。行為個數為4,查原碼可知,left = 0;down = 1;right = 2;up = 3。

state, action = 6,2

directions =

for next_sr in env.p[state][action]:

trans_prob, next_state, reward_prob, _ = next_sr

print(directions[state-next_state],'\t',trans_prob, '\t',next_state,'\t', reward_prob)

state,action = 6.2

下 	 0.3333333333333333 	 10 	 0.0

右 0.3333333333333333 7 0.0

上 0.3333333333333333 2 0.0

state,action = 2,3

輸出:

右 	 0.3333333333333333 	 3 	 0.0

無法移動 0.3333333333333333 2 0.0

左 0.3333333333333333 1 0.0

state,action = 14,2

無法移動 	 0.3333333333333333 	 14 	 0.0

右 0.3333333333333333 15 1.0

上 0.3333333333333333 10 0.0

state,action = 5,2

輸出:

無法移動 	 1.0 	 5 	 0
由此我們可看出動作的實際效果為。當位於f塊上時,向對應方向和兩側方向等概率前進一格,如果碰到邊界則回到原點。如果處於h塊上,不會移動,下一狀態預設為原點。同時我們可看出,只有當移動到目標點g塊時,才會獲得1的獎勵回報。

虛擬環境學習筆記

win r cmd切換到python的scripts目錄 pip install virtualenv pip install pipenv進入python控制台建立虛擬環境 建立虛擬環境 mkvirtualenv p python 虛擬環境名稱 刪除虛擬環境 rmvirtualenv 環境名稱 檢...

PHP課程 Php環境學習筆記

一 web伺服器 apache 配置伺服器 c apache2.2 conf httpd.conf apache主目錄 documentroot節點 directory apache的瀏覽目錄和主目錄保持一致 apache預設主頁 directoryindex 修改完成後重啟apache服務 apa...

js的執行環境學習筆記

js執行全域性 或者執行函式 的時候,首先進行準備,然後再執行。準備階段,就是建立執行環境的階段。1 執行環境 當一段js 遇到直譯器的時候,比如瀏覽器開啟一段js 時候,第一件事並不是馬上執行,而是建立執行環境。同樣的道理,當呼叫函式的時候,一開始也是建立執行環境。只有當執行環境建立完成,一切準備...