基於策略搜尋的強化學習方法

2021-10-01 21:49:10 字數 999 閱讀 8653

梯度與偏導數:

幾何意義:以二元函式f(x,y)為例,首先f(x,y)在某點(x0,y0)處的梯度是乙個向量,它的方向就是函式f(x,y)在該點函式值變化最快的方向,即方向導數最大的方向,它的模就等於該點方向導數的最大值.

偏導數:研究函式 f(x,y) 沿著平行於 x 軸和平行於 y 軸兩個特殊方位變動時, f(x,y) 的變化率。函式 z=f(x,y) 在(x0,y0)處對 x 的偏導數,實際上就是把 y 固定在 y0看成常數後,一元函式z=f(x,y0)在 x0處的導數。

梯度下降法:沿著梯度反方向,找到全域性最小值(損失函式)。

神經網路的有效性:兩層神經網路可以無限逼近任意二維連續函式。其實從輸入層到隱藏層的矩陣計算,就是對輸入資料進行了空間變換,使其可以被線性可分,然後輸出層畫出了乙個分界線。而訓練的過程,就是確定那個空間變換矩陣的過程。因此,多層神經網路的本質就是對複雜函式的擬合。

dqn與其他強化學習演算法:策略優化的方法如策略梯度、actor-critic、ddpg等模型對大動作空間更合適

pg更新:在policy gradient 中,可以通過reward 來進行反向傳播。當policy gradient 輸出挑選的動作的時候,根據reward的大小來調整判斷該網路是否。即當policy gradient網路輸出動作為reward 最高的時候,會使policy gradient輸出該動作概率增大。而當policy gradient 網路輸出的動作的reward不是那麼高的時候,則相應使policy gradient輸出該動作的概率減小。 

參考傳送門: 學習筆記13:隨機梯度下降法(stochastic gradient descent, sgd)

參考傳送門: 神經網路的基本工作原理

反向傳播與梯度下降:

參考傳送門:

反向傳播(backpropagation)與梯度下降(gradient descent)

參考傳送門:

2019 5 13 基於模型的強化學習方法

注 寫作四項工作 看懂 一篇 工作二 提出難點問題,提出新概念。例 多光譜 注意力機制 工作三 修改演算法,網路結構 損失函式 步數 基於模型的的強化學習是比無模型難很多的問題。一 狀態轉移概率 1 馬氏決策過程可以利用五元組 s,a,p,r,y 來描述。根據狀態轉移概率是否已知,可以分為基於模型和...

強化學習方法分類

model based 先理解真實世界是怎樣的,並建立乙個模型來模擬現實世界的反饋,通過想象來預判新下來將要發生的所有情況,然後選擇這些想象情況中最好的那種,並依據這種情況來採取下一步的策略。model free 不依賴環境,不嘗試去理解環境,agent會根據現實環境的反饋採取下一步的動作,一步一步...

RL(九)基於策略的強化學習

前面的演算法都是基於價值來算的,但是當處理連續動作的問題時,就顯得力不從心了,因為我們需要求的q錶太大,根本無法滿足我們的需要。前面我們在演算法分類的時候也講過,我們可以按基於價值和基於策略的方式來給rl分類,所以這篇部落格就是用基於策略演算法來求解強化學習問題。值函式近似法 在值函式近似法中,動作...