馬爾可夫決策過程 mdp
無模型的強化學習方法(model-free)
td vs. mc
td 較低的方差,但是有一定程度的偏差
mc 演算法試圖收斂至乙個能夠最小化狀態價值與實際收穫的均方差的解決方案;
td 演算法收斂到乙個根據已有經驗構建的最大可能的馬爾可夫模型的狀態價值,也就是說 td 演算法首先根據已有經驗估計狀態空間的轉移概率,同時估計某乙個狀態的即時獎勵,最後計算該 mdp 的狀態函式。
換句話說:
mc 方法並不利用馬爾可夫性質,故在非馬爾可夫環境中更有效率;
td(0) 利用馬爾可夫性質,在馬爾可夫環境中更有效率。
總結以上內容:
mc vs. td
monte-carlo
temporal difference
要等到 episode 結束才能獲得 return
每一步執行完都能獲得乙個return
只能使用完整的 episode
可以使用不完整的 episode
高方差,零偏差
低方差,有偏差
沒有體現出馬爾可夫性質
體現出了馬爾可夫性質
三種強化學習方法:monte-carlo,temporal-difference 和 dynamic programming,前兩種屬於 model-free 類方法(這其中 mc 需要乙個完整的 episode,td 則不需要完整的 episode),最後一種屬於 model-based 類方法,它通過計算乙個狀態 s 所有可能的轉移狀態 s′ 及其轉移概率以及對應的即時獎勵來計算這個狀態 s 的價值
下面幾張提很好的說明了這三類演算法的區別:
強化學習大一統:
我們可以發現,mc 和 td 方法都過於極端:
通常好的方法都是在兩個極端之間進行選擇,也就是 n-step td target,這要等到下次才寫了。
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習框架總結
設定,重新經歷 強化學習 rl 框架包含學習與其環境互動的智慧型體。在每個時間步,智慧型體都收到環境的狀態 環境向智慧型體呈現一種情況 智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵 環境表示智慧型體是否對該狀態做出了正確的響應 和新的狀態。所有智慧型體的目標都是最大化預期累積獎...
強化學習知識總結
參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...