策略(policy) , 獎賞訊號 reward , 值函式 value function, 以及可選的環境模型 model
policy 定義了agent在一給定時間的決策方式。policy是從感知到環境的狀態,到在這些狀態下應該採取的動作的對映。一般而言策略是概率性的,指定了執行每個動作的概率。
reward 定義了強化學習的目標。在每一time step 中,環境(environment)向agent傳送乙個reward的實數值,agent的唯一目標是將長期的累積reward最大化。reward只能顯示立即的優劣。
值函式(value function)能夠指明長期的優劣。乙個狀態(state)的值(value)是從當前狀態起,agent未來所有reward的累積和的期望值。reward只能決定對state立即的、固有的喜好程度。而值函式(value function)預示著從長期來看的對狀態的喜好程度。
model用於模仿環境的反應,其能夠推斷出環境將會作出怎樣的反應。
強化學習無監督者,不知道什麼是正確的決策,在作出行動之後有個反饋的reward
反饋的reward是有延遲的,一般在下乙個時間片得到reward
強化學習研究的是乙個時間序列的決策過程
行為會影響環境,強化學習是設計乙個agent智慧型體,使得這個agent主動學習
reward 獎勵:反饋的訊號,強化學習的目標是將累積的reward最大化。強化學習中研究的是長時間序列的問題,而且reward有時是延遲的,所以有時存在放棄當前最優的立即reward,而換取長期的回報,即強化學習在每一次action是並不是選擇最優的,有概率選擇不是最優的道路。
強化學習分為:
基於值函式(value-based)-----不需要顯式的策略,只需要max(v)
基於策略(policy-based)------直接由state得到動作
ac(actor critic)-----actor即policy,critic即value function
q-learning是reinforcement learning 中基於值函式的演算法
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習概念介紹
是智慧型體 agent 以試錯的方式進行學習,通過與環境進行互動獲得獎勵指導行為,目標是尋找乙個最優策略,使智慧型體獲得最大的獎勵。注意,agent的動作的影響不止立即獲取得到的獎勵,而且還影響接下來的動作和最終的獎勵 envirnment reward,action,state,policy 確定...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...