Q learning和Sarsa的區別

因此對於sarsa來說

1.在狀態s』時，就知道了要採取哪個a』，並真的採取了這個動作。

2.動作a的選取遵循e-greedy策略，目標q值的計算也是根據（e-greedy）策略得到的動作a』計算得來，因此為on-policy學習。

（選擇下個動作的存在探索的可能性）

而對於q-learning來說

只會選擇使得下個狀態q值最大的下個動作。

q-learning 只會估計下個動作是什麼（使得下個狀態最大的動作），但是下個動作不一定會採取，下個動作會進行重新的e-greedy策略選擇。

####q learning 機械人永遠都會選擇最近的一條通往成功的道路, 不管這條路會有多危險. 而 sarsa 則是相當保守, 他會選擇離危險遠遠的, 拿到寶藏是次要的, 保住自己的小命才是王道. 這就是使用 sarsa 方法的不同之處.

Q Learning 和SARSA演算法

q更新公式 greedy策略在q learning的更新過程中，每一步都要根據當前的state以及q函式確定乙個合適的行動action。這裡有乙個如何平衡經驗和探索的問題。如果完全按照經驗行動，即每次都在q state,中選擇對應值最大的action，那麼很有可能一直侷限在已有經驗中，難以...

SARSA與Q learning的區別

sarsa與q learning的區別 sarsa 的整個迴圈都將是在乙個路徑上,也就是 on policy,下乙個 state 和下乙個 action 將會變成他真正採取的 action 和 state.和 qlearning 的不同之處就在這.qlearning 的下個乙個 state acti...

強化學習Sarsa

演算法如下相比q learning而言，sarsa會比較膽小，不希望自己掉進陷阱裡，從而做出的決策都比較謹慎而q learning會選擇一條雖然比較危險但是可以成功的道路 off policy class qlearningtable rl def init self,actions,learn...

Q learning和Sarsa的區別

Q Learning 和SARSA演算法

SARSA與Q learning的區別

強化學習Sarsa

相關推薦