因此對於sarsa來說
1.在狀態s』時,就知道了要採取哪個a』,並真的採取了這個動作。
2.動作a的選取遵循e-greedy策略,目標q值的計算也是根據(e-greedy)策略得到的動作a』計算得來,因此為on-policy學習。
(選擇下個動作的存在探索的可能性)
而對於q-learning來說
只會選擇使得下個狀態q值最大的下個動作。
q-learning 只會估計下個動作是什麼(使得下個狀態最大的動作),但是下個動作不一定會採取,下個動作會進行重新的e-greedy策略選擇。
####q learning 機械人 永遠都會選擇最近的一條通往成功的道路, 不管這條路會有多危險. 而 sarsa 則是相當保守, 他會選擇離危險遠遠的, 拿到寶藏是次要的, 保住自己的小命才是王道. 這就是使用 sarsa 方法的不同之處.
Q Learning 和SARSA演算法
q更新公式 greedy策略 在q learning的更新過程中,每一步都要根據當前的state以及q函式確定乙個合適的行動action。這裡有乙個如何平衡 經驗 和 探索 的問題。如果完全按照經驗行動,即每次都在q state,中選擇對應值最大的action,那麼很有可能一直侷限在已有經驗中,難以...
SARSA與Q learning的區別
sarsa與q learning的區別 sarsa 的整個迴圈都將是在乙個路徑上,也就是 on policy,下乙個 state 和下乙個 action 將會變成他真正採取的 action 和 state.和 qlearning 的不同之處就在這.qlearning 的下個乙個 state acti...
強化學習Sarsa
演算法如下 相比q learning而言,sarsa會比較膽小,不希望自己掉進陷阱裡,從而做出的決策都比較謹慎 而q learning會選擇一條雖然比較危險但是可以成功的道路 off policy class qlearningtable rl def init self,actions,learn...