強化學習相關知識的整理

2022-09-02 20:36:17 字數 870 閱讀 9533

對於強化學習,之前有一種說法:深度學習是昨天,強化學習是今天,遷移學習是明天。雖說有些言過其實,但強化學習的思想,筆者看來還是最接近於人工智慧的思想。

剛剛開始接觸強化學習時,研究生剛剛入學,組裡需要做關於自動駕駛決策相關方面的研究,導師就把這任務給了我。

emm...

現在想想,讓乙個當時機器學習是什麼都不了解的小白,接觸強化學習簡直就是個笑話。

哈哈,言歸正傳,已經有半年沒有接觸過強化學習,之前在忙**的事情,一直相對強化學習相關的知識進行總結,奈何沒有時間,趁著年關將近,就將之前知識碼出來,以後用不用的上也說不准。

目錄介紹openai用的ppo演算法

介紹trpo演算法

為什麼trpo能保證新策略的回報函式單調不減?

介紹ddpg演算法

畫出ddpg框架

ddpg中的第二個d 為什麼要確定?

介紹a3c演算法

a3c中優勢函式意義

強化學習如何用在推薦系統中?

介紹sarsa演算法

sarsa 和 q-learning區別

強化學習中有value-based 和 policy-based,這兩種的優缺點分別是什麼?應用場景分別是什麼?

value-based方法學習的目標是什麼?

強化學習 dqn,ddqn,ac,ddpg 的區別

參考資料

參考資料

參考資料

參考資料

參考資料

參考資料

參考資料

參考資料

強化學習Numpy相關知識整理

在使用python進行強化學習 實驗的時候,numpy一定是會用到的乙個工具庫。numpy提供了很多有用的介面函式,但是要熟悉全部函式是有一定困難的。這裡整理一些強化學習中比較常用的api函式,並說明它們一般使用的位置。這個函式主要用於取出矩陣中最大元素的位置,常用於對dqn的輸出向量 import...

強化學習筆記整理

強化學習 自動進行決策並且可以做連續決策,包括agent 狀態 行動 獎勵四部分,目標是獲得最多的累計獎勵 原理 求解最優策略等價於求解最優的值函式 值函式選取策略更新的方式 原理 通過隨機取樣的經驗平均來估計期望值 一次實驗,學習速度慢,效率不高 步驟 agent與環境互動後得到互動序列,通過序列...

強化學習知識總結

參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...