是智慧型體(agent)以試錯的方式進行學習,通過與環境進行互動獲得獎勵指導行為,目標是尋找乙個最優策略,使智慧型體獲得最大的獎勵。(注意,agent的動作的影響不止立即獲取得到的獎勵,而且還影響接下來的動作和最終的獎勵)
envirnment ,reward,action,state,policy(確定策略和隨機策略:以一定的概率執行某一動作)
把用來指導個體產生於環境進行互動行為的策略:行為策略
把用來評價狀態或行為價值的策略稱為:目標策略
1獲得樣例後更新自己的模型
2.利用當前的模型指導下一步行動
3.下一步的行動獲得reward之後再更新模型
4,不斷迭代指導模型收斂
強化學習的分類
理解或感知環境 ;回合更新或單步更新 基於價值或基於策略 同策略或異策略(自己玩或者看別人玩)
pip install gym
常用函式:env=gym.make(「cartpole-vo」)
ebv.reset() 初始化智慧型體
env.render() 現實環境中的物體影象
env.step() 描述智慧型體與環境互動的所有資訊
除此之外還有baselines mujoco環境(主要用於機械人),rllab ,torcs ,pysc2
1.沒有教師訊號,沒有label,只有reward
2.反饋有延時,不是立即返回
3資料是序列化的,資料與資料之間是有關係的
4.agent執行的動作會影響後續的資料
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習介紹
策略 policy 獎賞訊號 reward 值函式 value function,以及可選的環境模型 model policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態,到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的,指定了執行每個動作的概率。reward...
強化學習概念理解
一 基本理解 強化學習與其他機器學習不同之處為 沒有教師訊號,也沒有label,只有reward。反饋有延時,不是能立即返回。資料是序列化的,資料與資料之間是有關的,而不是i.i.d的 agent執行的動作會影響之後的資料。四 強化學習的關鍵要素 強化學習的關鍵要素有 environment,rew...