深度增強學習入門筆記(二)

2021-08-13 14:20:19 字數 1118 閱讀 1978

知乎專欄智慧型單元的學習筆記,就真的只是一邊看一邊記的而已,僅為自己學習所用,侵刪。

是增強學習領域最重要的乙個方程。

使用價值函式進行決策就需要計算這個函式,那怎麼計算呢?—-bellman方程。

簡而言之,bellman方程的作用:表明價值函式是可以迭代進行計算的。

將價值函式的公式

a)表示,s代表狀態,a代表動作,每個狀態之後都有多種動作可以選擇,每個動作之下的狀態又多不一樣,所以更關心,某個狀態下的不同動作的價值。??

目的是,知道每個動作的價值,然後選擇乙個價值最大的去執行。價值函式中的reward指的是某乙個狀態的對應的reward(是多種動作對應的reward),這裡的reward指的是action執行完之後對應的reward。

動作價值函式的定義:

q上為什麼加π?因為動作是策略根據狀態生成的,a是π根據s生成的,動作價值函式是某策略下的動作執行之後的價值。

最優的動作價值函式就是所有策略下的動作價值函式的最大值。然後帶入價值函式就可以得到:

策略迭代 policy iteration

分為兩步:策略評估和策略改進

價值迭代 value iteration

二者的比較

策略迭代使用bellman方程更新value,得到收斂的value vπ

。是當前policy下的最優value值,因為策略迭代是

使用當前策略產生新的樣本,然後用新的樣本更好地估計策略的價值,然後利用策略的價值更新策略,然後不斷反覆,可以證明最終策略將收斂到最優。

價值迭代用bellman最優方程更新value,得到收斂的value v∗

。是當前state下的最優value值,不過只要最後是收斂的,最優的policy也就可以得到。

二者都是依賴於模型的

兩種方法都需要知道狀態轉移概率,所以都是依賴與模型的,理想條件下需要遍歷所有的狀態,是在上帝視角下推導出來的演算法,本質上並不能直接應用。

深度增強學習入門筆記(一)

知乎專欄智慧型單元的學習筆記,僅為自己學習所用,侵刪。openai的三個主要研究方向 1.深度生成模型 deep generative model 通過學習現有的資料生成新的資料。相關研究 1 otoro.net 學習文字自動生成新的文字 2 deep dream neural art 畫風遷移 3...

深度學習入門筆記系列 二

本系列將分為 8 篇 今天是第二篇 主要講講 tensorflow 框架的特點和此系列筆記中涉及到的入門概念 tensorflow 從單詞上可以分成 tensor 和 flow 兩個單詞 tensor 即張量 表明了其資料結構 flow 翻譯可理解為流 直觀的表達了張量之間通過計算相互轉化的過程 還...

深度學習入門筆記

之前研討會各種聽老闆和師兄談論deep learning的話題,自己也就聽一聽,這段時間出於了解 的目的仔細研究了一下,感覺內部挺複雜的,不過若只是需要了解原理,其實還比較簡單。深度學習與以往的機器學習方法不同之處在於,它並非是乙個具體的方法或者系統,而僅僅只是乙個理論體系,假設我們有乙個系統s,它...