知識總結:
a2c,a3c,ppo1,ppo2 :策略函式的優化(πθ(a|s))
q-learing : 動作值函式的優化(qθ(s,a))
ddpg,sac :結合策略函式和動作值函式(πθ(a|s)+qθ(s,a))
mpc(模型**控制) : 純動態規劃
mbmf : 在一些深度強化學習的標準基準任務上,基於學習到的環境進行模型**控制
exit / alphazero : 演算法用這種演算法訓練深層神經網路來玩 hex /專家迭代
mbve : 用假資料增加真實經驗/免模型方法的資料增強
world models : 全部用假資料來訓練智慧型體,所以被稱為:「在夢裡訓練」/免模型方法的資料增強
強化學習分類
在學習強化學習的過程中我們經常會遇到一些陌生的名詞分類,什麼model free,offpolicy之類的,學習的時候不明覺厲可能就一眼帶過了,但是其實這些分類的名詞其實十分有趣,掌握他們十分有助於我們加深對相關強化學習演算法的了解。舉個栗子 我們剛剛學習強化學習的時候都學習過gridworld這個...
model based 強化學習分類
model based rl這個方向的工作可以根據environment model的用法分為三類 1.作為新的資料來源 environment model 和 agent 互動產生資料,作為額外的訓練資料來源來補充演算法的訓練。2.增加決策的context資訊 在進行q值或者v值預估時,envir...
強化學習常用演算法總結
state action reward state action 簡稱sarsa,是為了建立和優化狀態 動作 state action 的價值q 所建立的方法。首先初始化q 根據當前的狀態和動作與環境進行互動後,得到獎勵reward以及下一步的狀態和動作後,對q 進行更新 並不斷重複這個過程。q 更...