EnforceLearning 主動強化學習

前言：

被動學習agent由固定的策略決定其行為。主動學習agent必須自己決定採取什麼行動。

具體方法是：

agent將要學習乙個包含所有行動結果概率的完整模型，而不僅僅是固定策略的模型；

接下來，agent自身要對行動做出選擇（它需要學習的函式是由最優策略所決定的，這些效用遵循 berman方程）；

最後的問題是每一步要做什麼（在獲得了對於學習到的模型而言最優的效用函式u之後，agent能夠通過使期望最大化的單步前瞻提取乙個最優行動；或者它使用迭代策略，最優策略已經得到，所以它應該簡單的執行最優策略所建議的行動）。

一、完整模型

passive-adp-agent所使用的簡單學習機制將做的很好。

二、探索

1、貪婪演算法

乙個adp agent在搜尋路徑時，每一步都遵循所學習的模型的最優策略的建議，被稱為貪婪agent。

一般問題：選擇最優策略是如何導致非最優結果的？答案是：學習到的模型與真實環境中的模型並不相同；因而學習到的模型的最優可能不是真實環境中的最優。不幸的是，agent並不知道真實環境是什麼，所以它不能針對真實環境計算最優行動。

2、如何改進？

折中：貪婪agent忽略的事實是行動不僅根據當前學習到的模型提供回報，他們也通過影響所接受的感知資訊對真實模型的學習做出貢獻。通過改進模型，agent將在未來得到更高的回報。

方法：agent必須在充分利用資訊exploitation 以最大化回報——反映在其當前效用估計上，和探索exploration以及最大化長期利益之間進行折中。

單純的充分利用資訊要冒墨守成規的風險；那麼單純的探索對於提高乙個人的知識是毫無用處的。

3、glie greedy in the limit of infinite exploration

尋找最優搜尋策略，在統計決策理論領域得到了深入的研究。對精確求解最優策略並沒有乙個固定的方法，但是可以提出乙個合理的方案最終導致agent的最優行動。技術上，任何這樣的方案在無窮探索的極限下都必然是貪婪的。

乙個glie方案必須在每個狀態下的每個行動進行無限制次數的嘗試，以避免一系列不常見的糟糕結果而錯過最優行動的概率。乙個adp agent使用這樣的方案最終將學習到真實的環境模型。乙個glie方案最終還必須變得貪婪，以使得agent的行動對於學習到（此時等同於真實的）真實模型而言是最優的。

4、幾種嘗試

一種最簡單的方式是：讓agent在1/t的時間片段內選擇乙個隨機行動，而其他時刻走遵循貪婪策略。簡單時序片段脫離法

另一種更為有效的方法是：給agent很少嘗試的行動進行加權，同時避免那些已經確信的具有最低效用的行動，實現方法為改變約束方程，以便給相對來說尚未探索的狀態——行動分配更高的效用估計。本質上，會得到乙個關於可能環境的樂觀先驗估計，並導致agent 最初的行動過如同整個區域到處散布者幾號的回報一樣。

三、學習行動-效用函式

1、為乙個主動adp agent構建乙個主動時序差分學習，與被動情況最明顯的變化是agent不再有固定的策略，它學習效用函式u時，就需要學習乙個模型以便能夠通過單步前瞻基於u採取乙個行動。

構建乙個主動學習adp agent，隨著訓練序列的時間趨於無窮，td演算法與adp演算法收斂到相同的值。

2、q-learn作為一種時序td方法，它學習一種行動-效用表示而不是學習效用。

後續：參考： deepmind用reinforcementlearning玩遊戲