強化學習複習筆記 DEEP

2022-02-20 06:19:21 字數 2052 閱讀 8346

outline

啟用函式

使用逼近器的特點:

較少數量的引數表達複雜的函式 (

計算複雜度

)對乙個權重的調整可以影響到很多的點 (

泛化能力

)多種特徵表示和逼近器結構 (

多樣性)

sigmoid 啟用函式

將神經元的輸出壓縮在 0 和 1 之間

永遠都是正數

有界 嚴格遞增 

tanh雙曲正切函式

將神經元的輸出壓縮在

-1 和 1 之間

有正有負

有界嚴格遞增

線性整流 (rectified linear unit, relu) 啟用函式

以 0 作為下界 (永遠都是非負的)

容易讓神經元產生稀疏的啟用行為

無上界

嚴格遞增

通用近似定理(hornik, 1991)

「如果乙個前饋神經網路具有線性輸出層和至少一層隱藏層, 只要給予網路足夠數量的神經元,便可以實現以足夠高精度來逼近任意乙個在 rn 的緊子集 (compact subset) 上的連續函式。 」

定理適用於 sigmoid, tanh, 和其它啟用函式

但是定理並不代表一定存在某個學習演算法, 能夠找到具有滿足近似效能的引數

置信風險: 分類器對 未知樣本進行分類,得到的誤差。

經驗風險: 訓練好的分類器,對訓練樣本重新分類得到的誤差。即樣本誤差

結構風險:置信風險 + 經驗風險

小批量 mini-batch  梯度下降

更新是基於一組小批量的樣本 (不再是單 一樣本)

梯度對應於正則化損失在小批量樣本上的平均

可以得到對梯度更加精確的估計

可以使用矩陣運算, 計算效率更高

在訓練集 dtrain上訓練你的模型

在驗證集 dvalid上選擇模型

-----包括選擇超參; 隱含層尺寸; 學習率; 迭代/訓練次數; 等等

在測試集 dtext上評估泛化能力

泛化的含義是模型在未見過的樣本上的表現

確定性 actor-critic

對於確定性策略, 可以使用神經網路逼近器構建 actor, 直接

輸出策略確定性的動作

設計另乙個神經網路構造 critic 用於逼近 q 函式

對 critic nn 可以使用例如 td 學習演算法訓練網路權重

對 actor nn 希望能夠輸出最優動作使得 q 函式最大化

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...

強化學習 學習筆記

強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...