an introduction to reinforcement learning, sutton and barto, 1998【可以從 我的站點 獲取】
algorithms for reinforcement learning, szepesvari【更加精簡】
當前,rl 演算法的目的就是獲取最多的獎勵(reward)1) 智慧型體需要作出一系列的決定(sequential decision ******)
2)智慧型體(agent)與環境(env)的互動
environment state
: 這個是環境的私有表示(private representation),任何環境用來決定下一步的觀察(observation)或者反饋(reward)的資料都屬於environment state
agent state
: 是智慧型體的內部表示,凡是智慧型體用來決定下一步動作的資訊都是agent state
;
information state(馬爾科夫 markov state)
: 其中包含 history 中所有有用的資訊【an information state (markov state) contains all useful information from the history】
當前狀態已經包含了歷史資訊中對決定下一步有用的所有資訊,判斷乙個狀態資訊是不是馬爾科夫狀態資訊,就是用上面的定義;
4) fully observable env
這就是馬爾科夫決策過程(markov decision process, mdp)
5) partially observable environments1)rl 智慧型體(agent)的主要組成部分【可能包含乙個或者多個下面的成分】
2) 迷宮的例子
3) rl agents 分類
policy based:
actor critic
第二種分類方法:是不是有 model
model-free
model based
rl 分類:
rl 就像是 trial-and-error learning
rl 要平衡好利用(exploitation)和探索(exploration)
prediction and control
control: optimise the future
深度強化學習
這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...
深度強化學習
一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...
深度強化學習
強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...