DQN學習第二天，從搭建框架開始

在主函式中設定全域性變數，設定環境引數，設定學習方式

設定學習所需要的引數（s，a，等等）

開始主迴圈的設計：

設定回合數每回合都要重置環境

設定步數呼叫環境的渲染

選擇行為

a = choose_action(s)

通過行為獲取下一狀態資訊

s_,r,done=env.step(a)

將狀態資訊記錄到經驗池中

rl.store_transition(s,a,r,s_)

等待經驗池記錄滿資料開始學習

if rl.memoryfull == true:
rl.learn()
s=s_

通過對主要框架的搭建，可以得到在dqn框架中的一些重要函式，如chooss_action(),store_transition(),learn()

learning_rate 學習率

gamma 伽馬值

greedy 貪婪值

tau 軟替換（不懂）

memory_size 記憶大小

batch_size 批量大小

建立神經網路函式

行為選擇函式

經驗池記錄資料函式

學習函式

學習第二天

linux系統的檔案型別及許可權的相關知識 1.普通檔案 l 連線檔案 d 資料夾表示不同的檔案型別 2.檔案許可權 r 可讀 w 可寫 x 可執行 3.chmod 修改檔案許可權，修符號或者使用八進位制 linux的基礎命令 cd 切換目錄 ls 檢視內容表示當前目錄上一級目錄等 touch...

第二天學習

快捷鍵功能ctrl alt t 啟動終端 print 全屏截圖 ctrl alt a 截圖alt tab 切換視窗 shift alt tab 反向切換視窗 super d 顯示桌面 super e 檔案管理器 super l 屏鎖介面 super up 最大化視窗 super down 恢復視窗...

學習第二天

製表符和換行符換行符 n 的作用是是來游標跳到下乙個新行，輸入完一行內容後游標下移一行而製表符 t 的作用是跳格即到自下乙個製表位置在系統中乙個製表區佔8列，相當於4個或8個空格符。正斜槓和反斜槓正斜槓是斜率是正數的斜槓，反斜槓是斜率為負數的斜槓這個世界上就只有microso...

DQN學習第二天，從搭建框架開始

學習第二天

第二天學習

學習第二天

相關推薦