在主函式中設定全域性變數,設定環境引數,設定學習方式
設定學習所需要的引數(s,a,等等)
開始主迴圈的設計:
設定回合數 每回合都要重置環境
設定步數 呼叫環境的渲染
選擇行為
a = choose_action(s)
通過行為獲取下一狀態資訊
s_,r,done=env.step(a)
將狀態資訊記錄到經驗池中
rl.store_transition(s,a,r,s_)
等待經驗池記錄滿資料開始學習
if rl.memoryfull == true:
rl.learn()
s=s_
通過對主要框架的搭建,可以得到在dqn框架中的一些重要函式,如chooss_action(),store_transition(),learn()
learning_rate 學習率
gamma 伽馬值
greedy 貪婪值
tau 軟替換(不懂)
memory_size 記憶大小
batch_size 批量大小
建立神經網路函式
行為選擇函式
經驗池記錄資料函式
學習函式
學習第二天
linux系統的檔案型別及許可權的相關知識 1.普通檔案 l 連線檔案 d 資料夾 表示不同的檔案型別 2.檔案許可權 r 可讀 w 可寫 x 可執行 3.chmod 修改檔案許可權,修符號或者使用八進位制 linux的基礎命令 cd 切換目錄 ls 檢視內容 表示當前目錄 上一級目錄等 touch...
第二天學習
快捷鍵 功能ctrl alt t 啟動終端 print 全屏截圖 ctrl alt a 截圖alt tab 切換視窗 shift alt tab 反向切換視窗 super d 顯示桌面 super e 檔案管理器 super l 屏鎖介面 super up 最大化視窗 super down 恢復視窗...
學習第二天
製表符和換行符 換行符 n 的作用是是來游標跳到下乙個新行,輸入完一行內容後游標下移一行 而製表符 t 的作用是 跳格 即到自下乙個 製表位置 在系統中乙個 製表區 佔8列,相當於4個或8個空格符。正斜槓和反斜槓 正斜槓 是斜率是正數的斜槓,反斜槓 是斜率為負數的斜槓 這個世界上就只有microso...