OPENAI GYM 從無到有的tutorial

2021-10-03 09:01:11 字數 2108 閱讀 7906

我的目標是用openai的gym+虛擬機器跑一下超級mario並且分析gym運用在csgobot上的可行性。

gym裡面包含了很多很小很精簡的定製小遊戲用來測試神經網路;

至於網路和邏輯可以從tensorflow中匯入。

openai gym 是乙個增強學習(reinforcement learning,rl)演算法的測試床(testbed)

openai gym由兩部分組成:

gym開源庫:測試問題的集合。當你測試增強學習的時候,測試問題就是環境,比如機械人玩遊戲,環境的集合就是遊戲的畫面。這些環境有乙個公共的介面,允許使用者設計通用的演算法。

openai gym服務。提供乙個站點(比如對於遊戲cartpole-v0:和api,允許使用者對他們的測試結果進行比較。

1.win10搜尋真的方便的多,進入系統變數path,在裡面新增

新增對應anaconda環境變數:(以自己的安裝路徑為準)

x:\anaconda3

x:\anaconda3\scripts

x:\anaconda3\library\bin

就可以。

2.清華映象可以直接命令列,或者在anaconda裡面設定:

conda config --add channels

conda config --add channels

conda config --set show_channel_urls yes

3.安裝gym

pip install --user gym -i
這樣可以不用配置清華源為預設源直接安裝。

跑乙個tutorial

import gym

env = gym.make(

'cartpole-v0'

)env.reset(

)#重置環境

for _ in

range

(1000):

#1000幀

env.render(

)#每一幀重新渲染環境

非常搞笑,桿子各種亂跑。

下面把agent連線到gym,試著跑一下

增強學習有幾個基本概念:

agent:智慧型體,也就是機械人,你的**本身。

environment:環境,也就是遊戲本身,openai gym提供了多款遊戲,也就是提供了多個環境。

action:行動,比如玩超級瑪麗,向上向下等動作。

state:狀態,每次智慧型體做出行動,環境會相應地做出反應,返回乙個狀態和獎勵。

reward:獎勵:根據遊戲規則的得分。智慧型體不知道怎麼才能得分,它通過不斷地嘗試來理解遊戲規則,比如它在這個狀態做出向上的動作,得分,那麼下一次它處於這個環境狀態,就傾向於做出向上的動作。

gym的核心介面是env,作為統一的環境介面。env包含下面幾個核心方法:

1、reset(self):重置環境的狀態,返回乙個初始情況的observation物件

2、step(self,action)推進乙個時間步長,從agent輸入action,,返回observation(state object),reward(float浮點型),done(boolean),info(dict)

3、render(self,mode=』human』,close=false)重繪環境的一幀。預設模式一般比較友好,如彈出乙個視窗。

從無到有的創造事物

1.創造商品的一般流程 2.創造產品的過程包含幾個要點 1 綜合 將不同大的部件 子系統及技術集成為乙個整體。2 分析 運用數學 科學 工程技術和經濟學知識將不同方案的效能進行量化。3 交流 繪製見圖 建立數學模型或實體模型 撰寫書面報告 進行口頭陳述,讓管理部門理解並支援你的方案 構思及設計。4 ...

虛擬機器從無到有,伺服器從無到有的歷程(在更)

安裝虛擬機器之後做什麼?修改ip位址,方便訪問,在安裝作業系統前後都可以 修改ip位址之後,安裝php伺服器後先通過虛擬機器裡面的ie瀏覽器訪問,看能不能用,能用就代表配置好了,再去折騰用本機訪問 找vmare tools工具 莫名其妙安裝成無圖形化介面的os 莫名其妙再安裝一次是圖形化介面的 安裝...

從無到有的日誌分析演變過程

總結作為乙個萌新的我,雖然在學校開始自學網路安全知識,安全乙方公司實習了2年多,做了2年多份安全開發工作,漸漸的對網路安全有了深入的了解,2年間主要是負責安全工具開發和日誌系統開發,後面由於自身問題跳到了甲方公司,開始對甲方公司的網路安全進行從無到有的開發,由於之前開發過日誌分析平台,因此,我開始了...