DQN學習第二天,從搭建框架開始

2021-09-25 21:33:42 字數 679 閱讀 8704

在主函式中設定全域性變數,設定環境引數,設定學習方式

設定學習所需要的引數(s,a,等等)

開始主迴圈的設計:

設定回合數 每回合都要重置環境

設定步數 呼叫環境的渲染

選擇行為

a = choose_action(s)
通過行為獲取下一狀態資訊

s_,r,done=env.step(a)
將狀態資訊記錄到經驗池中

rl.store_transition(s,a,r,s_)
等待經驗池記錄滿資料開始學習

if rl.memoryfull == true:

rl.learn()

s=s_

通過對主要框架的搭建,可以得到在dqn框架中的一些重要函式,如chooss_action(),store_transition(),learn()

learning_rate 學習率

gamma 伽馬值

greedy 貪婪值

tau 軟替換(不懂)

memory_size 記憶大小

batch_size 批量大小

建立神經網路函式

行為選擇函式

經驗池記錄資料函式

學習函式

學習第二天

linux系統的檔案型別及許可權的相關知識 1.普通檔案 l 連線檔案 d 資料夾 表示不同的檔案型別 2.檔案許可權 r 可讀 w 可寫 x 可執行 3.chmod 修改檔案許可權,修符號或者使用八進位制 linux的基礎命令 cd 切換目錄 ls 檢視內容 表示當前目錄 上一級目錄等 touch...

第二天學習

快捷鍵 功能ctrl alt t 啟動終端 print 全屏截圖 ctrl alt a 截圖alt tab 切換視窗 shift alt tab 反向切換視窗 super d 顯示桌面 super e 檔案管理器 super l 屏鎖介面 super up 最大化視窗 super down 恢復視窗...

學習第二天

製表符和換行符 換行符 n 的作用是是來游標跳到下乙個新行,輸入完一行內容後游標下移一行 而製表符 t 的作用是 跳格 即到自下乙個 製表位置 在系統中乙個 製表區 佔8列,相當於4個或8個空格符。正斜槓和反斜槓 正斜槓 是斜率是正數的斜槓,反斜槓 是斜率為負數的斜槓 這個世界上就只有microso...