1\policy gradient(review)
三個元件:actor\enviroment\reward
enviromwnt和reward開始之前就已經存在,能調整的就是actor的策略,如何是actor的策略可以得到最大的reward.
2\policy of actor
policy:π,是帶有引數的network
input:機器可以理解的資料,向量或者矩陣
output:動作的選項,有幾個就是有幾個neuron.network給這幾個動作權值.權值不同,採取的policy就不同.
流程:actor-->環境--->判斷結果採取action,採取action之後會得到reward
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習系列1 強化學習簡介
2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...