model-based:先理解真實世界是怎樣的,並建立乙個模型來模擬現實世界的反饋,通過想象來預判新下來將要發生的所有情況,然後選擇這些想象情況中最好的那種,並依據這種情況來採取下一步的策略。
model-free:不依賴環境,不嘗試去理解環境,agent會根據現實環境的反饋採取下一步的動作,一步一步等待真實世界的反饋,再根據反饋採取下一步行動。
■例如q-learning,sarsa,policy gradients。
monte-carlo update:遊戲開始後,要等待遊戲結束,然後再總結這一回合中的所有轉折點,再更新行為準則。
■例如:policy gradients,mc
temporal-difference update:在遊戲進行中每一步都在更新,不用等待遊戲的結束,這樣就能邊玩邊學習了。
例如:q-learning,sarsa,公升級版的pg.
policy based:目標是找到最優策略,通過感官分析所處的環境,直接輸出下一步要繫取的各種動作的概率,然後根據概率採取行動。
例如:policy gradients
value based:目標是找到最優獎勵總和,輸出的是所有動作的價值,根據最**值來選動作,這類方法不能選取連續的動作。
■例如:q-learning,sarsa
還有一種名為actor-critic的演算法:它結合了這兩類方法的優勢之處。
on-policy:必須agent「本人」在場,並且一定是agent邊玩邊學習,例如sarsa,sarsa(λ),trpo。
off-policy:可以選擇自己玩,也可以選擇看著別人玩,通過看別人玩來學習別人的行為準則,例如q-learning,dqn,deterministic policy gradient。
on-policy和off-policy本質區別在於:更新q值的時候是使用既定策略還是使用新的策略。
在有限次數下,到底是堅持在你認為中獎概率高的拉桿上投入更多的次數(exploit)呢?
還是去試試別的拉桿(explore)呢?
強化學習分類
在學習強化學習的過程中我們經常會遇到一些陌生的名詞分類,什麼model free,offpolicy之類的,學習的時候不明覺厲可能就一眼帶過了,但是其實這些分類的名詞其實十分有趣,掌握他們十分有助於我們加深對相關強化學習演算法的了解。舉個栗子 我們剛剛學習強化學習的時候都學習過gridworld這個...
model based 強化學習分類
model based rl這個方向的工作可以根據environment model的用法分為三類 1.作為新的資料來源 environment model 和 agent 互動產生資料,作為額外的訓練資料來源來補充演算法的訓練。2.增加決策的context資訊 在進行q值或者v值預估時,envir...
2019 5 13 基於模型的強化學習方法
注 寫作四項工作 看懂 一篇 工作二 提出難點問題,提出新概念。例 多光譜 注意力機制 工作三 修改演算法,網路結構 損失函式 步數 基於模型的的強化學習是比無模型難很多的問題。一 狀態轉移概率 1 馬氏決策過程可以利用五元組 s,a,p,r,y 來描述。根據狀態轉移概率是否已知,可以分為基於模型和...