強化學習一基礎認知

強化學習是想讓乙個智慧型體(agent)在不同的環境狀態(state)下，學會選擇那個使得獎賞(reward)最大的動作(action)。

agent在 t 時刻，通過觀測環境得到自己所在的狀態(state)，接下來agent根據策略(policy)進行決策後，做出乙個動作(action)。這個action就會使得agent在環境(environment)中轉移到乙個新的狀態，並且在轉移時獲得乙個即時獎勵(reward)值，這樣agent又可以在新state中重新選擇動作。

這樣就可以累積很多reward值（r0

,r1,

...,

rt,.

..,r

t）（r

0,r1

,...

,rt,

...,

rt）（

r0,r

1,..

.,rt

,...

,rt）

（r0,r1,...,rt,...,rt）（r0,r1,...,rt,...,rt）（r_0,r_1,...,r_t,...,r_t）

（r0,r1

,...

,rt,

...,

rt）（

r0,r

1,..

.,rt

,...

,rt）

（r0

,r1

,...

,rt

,...

,rt

）r累積起來最大。即是獎勵最大化。

environment model

如果我們知道環境的一切，我們就說這個環境是已知的，即model based。也就是說，在這種情況下，agent知道選擇乙個動作後，它的狀態轉移概率是怎樣的，獲得獎賞是怎樣的。這些都知道的話，我們就可以使用動態規劃的方法(dp)來解決問題。

但是在現實生活中，我們是很難知道狀態之間的轉移概率。這種情況稱為model free。所以我們無法直接使用動態規劃的方法來解決這種問題。

exploration and exploitation（探索與利用）

上面講了，在強化學習中，我們的目標就是為了累積獎賞最大化。那麼在每次選擇動作時，agent會選擇在過去經歷中它認為獎賞最大的動作去執行。

但是有乙個問題是，雖然有些動作一開始的獎賞很小。但是也許在這個動作的後面會有獎賞很大的時候呢？如果agent只是選取當前它認為獎賞最大的動作，那麼它有可能陷入了區域性最優。所以，agent需要去探索。探索那些獎賞比較小的動作，也許它後面的獎賞會很大。

當然，探索也不能一直去探索，因為可能你只有有限的時間，不能把時間一直放在探索上面。所以看起來這是一對矛盾體。如何平衡它們是乙個很重要的事情。

參考：強化學習簡介

周志華《machine learning》學習筆記（17）–強化學習

強化學習一基礎認知

強化學習強化學習基礎

強化學習基礎

一強化學習 RL 基礎

強化學習 一 基礎認知

強化學習 強化學習基礎

強化學習基礎

一 強化學習 RL 基礎

相關推薦

強化學習一基礎認知

強化學習強化學習基礎

一強化學習 RL 基礎