強化學習是想讓乙個智慧型體(agent)在不同的環境狀態(state)下,學會選擇那個使得獎賞(reward)最大的動作(action)。
agent在 t 時刻,通過觀測環境得到自己所在的狀態(state),接下來agent根據策略(policy)進行決策後,做出乙個動作(action)。這個action就會使得agent在環境(environment)中轉移到乙個新的狀態,並且在轉移時獲得乙個即時獎勵(reward)值,這樣agent又可以在新state中重新選擇動作。
這樣就可以累積很多reward值(r0
,r1,
...,
rt,.
..,r
t)(r
0,r1
,...
,rt,
...,
rt)(
r0,r
1,..
.,rt
,...
,rt)
(r0,r1,...,rt,...,rt)(r0,r1,...,rt,...,rt) (r_0,r_1,...,r_t,...,r_t)
(r0,r1
,...
,rt,
...,
rt)(
r0,r
1,..
.,rt
,...
,rt)
(r0
,r1
,...
,rt
,...
,rt
)r累積起來最大。即是獎勵最大化。
environment model
如果我們知道環境的一切,我們就說這個環境是已知的,即model based。也就是說,在這種情況下,agent知道選擇乙個動作後,它的狀態轉移概率是怎樣的,獲得獎賞是怎樣的。這些都知道的話,我們就可以使用動態規劃的方法(dp)來解決問題。
但是在現實生活中,我們是很難知道狀態之間的轉移概率。這種情況稱為model free。所以我們無法直接使用 動態規劃 的方法來解決這種問題。
exploration and exploitation(探索與利用)
上面講了,在強化學習中,我們的目標就是為了累積獎賞最大化。那麼在每次選擇動作時,agent會選擇在過去經歷中它認為獎賞最大的動作去執行。
但是有乙個問題是,雖然有些動作一開始的獎賞很小。但是也許在這個動作的後面會有獎賞很大的時候呢?如果agent只是選取當前它認為獎賞最大的動作,那麼它有可能陷入了區域性最優。所以,agent需要去探索。探索那些獎賞比較小的動作,也許它後面的獎賞會很大。
當然,探索也不能一直去探索,因為可能你只有有限的時間,不能把時間一直放在探索上面。所以看起來這是一對矛盾體。如何平衡它們是乙個很重要的事情。
參考:強化學習簡介
周志華《machine learning》學習筆記(17)–強化學習
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習基礎
mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態,這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...
一 強化學習 RL 基礎
1.初探強化學習 1.什麼是強化學習?2.強化學習可以解決什麼問題?強化學習如何解決這些問題?2.強化學習 監督學習和非監督學習1.監督學習解決的是什麼問題?監督學習如何解決這些問題?2.強化學習與監督學習的差異 3.強化學習與非監督學習的差異 3.強化學習基礎理論 3.1.強化學習模型 ta t ...