強化學習 五

2021-10-10 07:10:27 字數 720 閱讀 6027

inverse reinforcement learning 方法與gan在影象生成中有什麼異曲同工之處?

答:在gan 中,我們有一些比較好的資料集,也有乙個generator,一開始他根本不知道要產生什麼樣的圖,只能隨機生成。另外我們有乙個discriminator,其用來給生成的圖打分,expert 生成的圖得分高,generator 生成的圖得分低。有了discriminator 以後,generator 會想辦法去騙過 discriminator。generator 會希望discriminator 也會給它生成得圖高分。整個 process 跟 irl 的過程是類似的。我們一一對應起來看:

a. 生成的圖就是 expert 的 demonstration,generator 就是actor,generator 會生成很多的圖並讓actor 與環境進行互動,從而產生很多 trajectory。這些 trajectory 跟環境互動的記錄等價於 gan 裡面的生成圖。

b. 在irl中 learn 的 reward function 就是 discriminator。rewards function 要給 expert 的 demonstration 高分,給 actor 互動的結果低分。

c. 考慮兩者的過程,在irl中,actor 會想辦法,從這個已經 learn 出來的 reward function 裡面得到高分,然後 iterative 地去迴圈這其實是與 gan 的過程是一致

的.

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...