冰凍湖圖例(以4*4為例):
s為起始位置,f是可通過的冰凍湖,h是會落下去的洞,g是要到達的目標。
狀態個數為16,指代16個方格。行為個數為4,查原碼可知,left = 0;down = 1;right = 2;up = 3。
state, action = 6,2
directions =
for next_sr in env.p[state][action]:
trans_prob, next_state, reward_prob, _ = next_sr
print(directions[state-next_state],'\t',trans_prob, '\t',next_state,'\t', reward_prob)
state,action = 6.2
下 0.3333333333333333 10 0.0state,action = 2,3右 0.3333333333333333 7 0.0
上 0.3333333333333333 2 0.0
輸出:
右 0.3333333333333333 3 0.0state,action = 14,2無法移動 0.3333333333333333 2 0.0
左 0.3333333333333333 1 0.0
無法移動 0.3333333333333333 14 0.0state,action = 5,2右 0.3333333333333333 15 1.0
上 0.3333333333333333 10 0.0
輸出:
無法移動 1.0 5 0由此我們可看出動作的實際效果為。當位於f塊上時,向對應方向和兩側方向等概率前進一格,如果碰到邊界則回到原點。如果處於h塊上,不會移動,下一狀態預設為原點。同時我們可看出,只有當移動到目標點g塊時,才會獲得1的獎勵回報。
虛擬環境學習筆記
win r cmd切換到python的scripts目錄 pip install virtualenv pip install pipenv進入python控制台建立虛擬環境 建立虛擬環境 mkvirtualenv p python 虛擬環境名稱 刪除虛擬環境 rmvirtualenv 環境名稱 檢...
PHP課程 Php環境學習筆記
一 web伺服器 apache 配置伺服器 c apache2.2 conf httpd.conf apache主目錄 documentroot節點 directory apache的瀏覽目錄和主目錄保持一致 apache預設主頁 directoryindex 修改完成後重啟apache服務 apa...
js的執行環境學習筆記
js執行全域性 或者執行函式 的時候,首先進行準備,然後再執行。準備階段,就是建立執行環境的階段。1 執行環境 當一段js 遇到直譯器的時候,比如瀏覽器開啟一段js 時候,第一件事並不是馬上執行,而是建立執行環境。同樣的道理,當呼叫函式的時候,一開始也是建立執行環境。只有當執行環境建立完成,一切準備...