在之前內容的整理中涉及了一些重要性取樣的內容,在介紹蒙特卡羅離線策略 時有所提及。其中詳細介紹了到底什麼是重要性取樣。
這篇博文主要想更加深刻得思考為什麼用的是重要性取樣方法?
參考鏈結中一句話說的很好:重要性取樣出現的原因是因為原始分布難以直接取樣,故需要借助乙個簡單、可取樣的分布來計算期望。但強化學習中使用重要性取樣不是因為原始分布難以取樣,而是不想通過這個分布進行取樣。
只要能夠理解這句話,就可以分析清楚為什麼有時候用重要性取樣,有時候不用了?
在off policy策略中,我們希望估計目標策略下的期望回報(價值),但只有行動策略中的回報\(g_t\)。這些從行動策略中得到的回報的期望\(e[g_t|s_t=s]=v_b(s)\)是不準確的,所以不能用它們的平均來得到\(v_\)。
重要性取樣就是在改權重 算均值。
這種情況和有策略\(\pi\)的分布,想求策略\(b\)的均值有異曲同工之妙,基本上就是一模一樣。這也就是那句話,有簡單的想算複雜的和想算複雜的只有簡單的 解決方法其實一樣。
我再仔細看看為什麼q-learning 那些方法都還沒用重要性取樣,
待續...
重要性取樣
from scipy import stats from scipy.stats import norm import numpy as np import matplotlib.pyplot as plt def f x return np.sin x x def intf x1,x2 retur...
mh取樣演算法推導 重要性取樣小結
最近在看一篇講ssr的ppt,裡面提到了根據ggx分布做重要性取樣,其實之前或多或少的了解過重要性取樣演算法,不過當時沒有認真的總結過這個問題,也沒有想過要認真的推導相關的公式。這篇給文章的主要目的就是給看過的一些文章做個總結,推導一下相關的公式,以免自己會忘記。接下來會分幾個步驟介紹一下與重要性取...
《強化學習》基於取樣迭代優化agent
前面介紹了三種取樣求均值的演算法 mc td td lamda 下面我們基於這幾種方法來迭代優化agent 傳統的強化學習演算法 已經知道完整mdp 使用價值函式v s 沒有給出完整mdp 使用價值函式q s,a 可見我們的目標就是確定下來最優策略和最優價值函式 有完整mdp 用dp解決複雜度較低 ...