model based 強化學習分類

2021-10-03 10:55:28 字數 377 閱讀 2397

model-based rl這個方向的工作可以根據environment model的用法分為三類:

1.作為新的資料來源:environment model 和 agent 互動產生資料,作為額外的訓練資料來源來補充演算法的訓練。

2.增加決策的context資訊:在進行q值或者v值預估時,environment model 和agent做互動,互動過程中的資訊作為context提供給agent來幫助其決策。

3.增加q值預估的質量:在進行q值預估時候,會通過environment model 來展開一定步數,然後結合model-free的q值預估來給出乙個更高準確的q值預估。

其中3和2有點類似,但是2一般和planning結合,3的話則更多用於off-policy的rl演算法中

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...