前言:
被動學習agent由固定的策略決定其行為。主動學習agent必須自己決定採取什麼行動。
具體方法是:
agent將要學習乙個包含所有行動結果概率的完整模型,而不僅僅是固定策略的模型;
接下來,agent自身要對行動做出選擇( 它需要學習的函式是由最優策略所決定的,這些效用遵循 berman方程 );
最後的問題是每一步要做什麼(在獲得了對於學習到的模型而言最優的效用函式u之後,agent能夠通過使期望最大化的單步前瞻提取乙個最優行動;或者它使用迭代策略,最優策略已經得到,所以它應該簡單的執行最優策略所建議的行動)。
一、完整模型
passive-adp-agent所使用的簡單學習機制將做的很好。
二、探索
1、貪婪演算法
乙個adp agent在搜尋路徑時,每一步都遵循所學習的模型的最優策略的建議,被稱為 貪婪agent。
一般問題:選擇最優策略是如何導致非最優結果的? 答案是:學習到的模型與真實環境中的模型並不相同;因而學習到的模型的最優可能不是真實環境中的最優。不幸的是,agent並不知道真實環境是什麼,所以它不能針對真實環境計算最優行動。
2、如何改進?
折中:貪婪agent忽略的事實是行動不僅根據當前學習到的模型提供回報,他們也通過影響所接受的感知資訊對真實模型的學習做出貢獻。通過改進模型,agent將在未來得到更高的回報。
方法:agent必須在充分利用資訊exploitation 以最大化回報——反映在其當前效用估計上,和探索exploration以及最大化長期利益之間進行折中。
單純的充分利用資訊要冒墨守成規的風險;那麼單純的探索對於提高乙個人的知識是毫無用處的。
3、glie greedy in the limit of infinite exploration
尋找最優搜尋策略,在統計決策理論領域得到了深入的研究。對精確求解最優策略並沒有乙個固定的方法,但是可以提出乙個合理的方案最終導致agent的最優行動。技術上,任何這樣的方案在無窮探索的極限下都必然是貪婪的。
乙個glie方案必須在每個狀態下的每個行動進行無限制次數的嘗試,以避免一系列不常見的糟糕結果而錯過最優行動的概率。乙個adp agent使用這樣的方案最終將學習到真實的環境模型。 乙個glie方案最終還必須變得貪婪,以使得agent的行動對於學習到(此時等同於真實的)真實模型而言 是最優的。
4、幾種嘗試
一種最簡單的方式是:讓agent在1/t的時間片段內選擇乙個隨機行動,而其他時刻走遵循貪婪策略。簡單時序片段脫離法
另一種更為有效的方法是:給agent很少嘗試的行動進行加權,同時避免那些已經確信的具有最低效用的行動,實現方法為 改變約束方程,以便給相對來說尚未探索的狀態——行動分配更高的效用估計。 本質上,會得到乙個關於可能環境的樂觀先驗估計,並導致agent 最初的行動過如同整個區域到處散布者幾號的回報一樣。
三、學習行動-效用函式
1、為乙個主動adp agent構建乙個主動時序差分學習,與被動情況最明顯的變化是agent不再有固定的策略,它學習效用函式u時,就需要學習乙個模型以便能夠通過單步前瞻基於u採取乙個行動。
構建乙個主動學習adp agent,隨著訓練序列的時間趨於無窮,td演算法與adp演算法收斂到相同的值。
2、q-learn作為一種時序td方法,它學習 一種行動-效用表示 而不是學習效用。
後續:參考: deepmind用reinforcementlearning玩遊戲
EnforceLearning 被動強化學習
前言 畫圖挺好 深度學習高階之路 從遷移學習到強化學習 專家系統給出了知識節點和規則,使用粒度描述準確性,依靠分解粒度解決矛盾,並反饋知識和推理規則更新。專家系統與機器學習有本質區別,但從機器學習的角度看,專家系統是乙個給出了規則 函式又給了函式引數的學習模型,其直接影響是泛化效能極差,容易導致矛盾...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...