Datawhale深度強化學習打卡

2021-10-25 04:17:27 字數 721 閱讀 8426

2.1策略迭代:有兩個步驟,第一步包括策略評估和策略優化,第二部進行策略的優化,代表演算法是sarsa

2.2值迭代:一直只進行bellman optimality equation,迭代出optimal value function後只做一次policy update。代表演算法是q-learning

對於bellman 方程的求解主要有三種:

1.蒙特卡羅法,通過取樣的方法去估計狀態的期望值函式,但是必須到達終態才能得到狀態s的值函式,因此更新過程非常緩慢,學習效率不高。當取樣的次數足夠的多(保證每乙個可能的狀態-動作都能被取樣到)時,就可以最大程度的逼近狀態的真實期望值函式。

2. 迭代演算法(動態規劃),在已知狀態轉換概率和回報函式的情況下,不需要與環境的互動,直接通過策略迭代或值迭代方法得到最優策略。

3. 以上兩種的結合:時間差異學習方法(temporal-difference learning)結合動態規劃的思想,可以實現單步更新,提公升效率;結合蒙特卡洛的取樣,可以避免對狀態轉換概率的依賴,通過取樣估計狀態的期望值函式。使得時序差分能夠在缺少環境動態模型的情況下從原始經驗中直接進行學習。

深度強化學習

這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...

深度強化學習

一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...

深度強化學習

強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...