逆向強化學習

2021-09-24 05:59:54 字數 779 閱讀 5382

摘錄自: 概述

我們先介紹下逆向強化學習的概念預分類:

什麼是逆向強化學習呢?當完成複雜的任務時,強化學習的回報函式很難指定,我們希望有一種方法找到一種高效可靠的回報函式,這種方法就是逆向強化學習。我們假設專家在完成某項任務時,其決策往往是最優的或接近最優的,當所有的策略產生的累積匯報函式期望都不比專家策略產生的累積回報期望大時,強化學習所對應的回報函式就是根據示例學到的回報函式。即逆向強化學習就是從專家示例中學習回報函式。當需要基於最優序列樣本學習策略時,我們可以結合逆向強化學習和強化學習共同提高回報函式的精確度和策略的效果。逆向強化學習的基本理論可參考如下**:

ng a y, russell s j. algorithms for inverse reinforcement learning. icml, 2000

逆向強化學習一般流程如下:

隨機生成乙個策略作為初始策略;

通過比較「高手」的互動樣本和自己互動樣本的差別,學習得到回報函式;

利用回報函式進行強化學習,提高自己策略水平;

如果兩個策略差別不大,就可以停止學習了,否則回到步驟2。

逆向強化學習分類如下:

最大邊際形式化:學徒學習、mmp方法、結構化分類、神經逆向強化學習。

基於概率模型的形式化:最大熵irl、相對熵irl、深度逆向強化學習。

最大邊際化方法的缺點是很多時候不存在單獨的回報函式使得專家示例行為既是最優的又比其它任何行為好很多,或者不同的回報函式揮導致相同的專家策略,也就是說這種方法無法解決歧義問題。基於概率模型的方法可以解決此問題。

逆向強化學習專案可參考:

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...