2023年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5:0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。
強化學習(reinforcement learning)是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程(markov decision process,mdp)。所謂馬爾科夫決策過程,指的是下一時刻的狀態僅由當前階段(包括狀態、決策)決定,不依賴於以往的狀態,用數學化的語言表達為:
問題是多階段決策過程,階段數為i
ii每個階段可能的狀態為集合s
is_i
si。
每個階段可以做的決策為集合a
ia_i
ai從當前階段狀態到下一階段狀態的轉移函式為p
pp,有si+
1=p(
si,a
i)s_=p(s_i,a_i)
si+1=
p(si
,ai
)決策完成之後,當前階段對應的成本(或者獎賞)為ci=
c(si
,ai)
c_i=c(s_i,a_i)
ci=c(
si,
ai)
。求解變數為a
ia_i
ai,目標函式為最小化總成本(或者最大化總獎賞)σi∈
ici\sigma_c_i
σi∈ic
i如果階段之間的轉移存在隨機性,那麼狀態轉移函式為轉移概率psi
+1=p
(si+
1,si
,ai)
p_}=p(s_,s_i,a_i)
psi+1
=p(
si+1
,si
,ai
),求解變數為ai=
π(si
)a_i = \pi(s_i)
ai=π(
si)
,當前階段期望成本為ci=
σsi+
1c(s
i+1,
si,a
i)ps
i+1c_i=\sigma _}c(s_,s_i,a_i)p_}
ci=σs
i+1
c(s
i+1
,si
,ai
)psi
+1
,目標函式為最小化期望總成本σi∈
ici\sigma_c_i
σi∈ic
i。模型在進行決策的時候有多種方法,這裡列舉常用的三種:
下面介再簡單描述一些重要概念:
有模型情況下,p
pp、r
rr是已知的,可以通過bellman方程求解v
vv。然而求解bellman的過程比較麻煩,實際操作中使用迭代的方法,分為以下兩種:
強化學習簡介
強化學習是機器想裡面非常重要的乙個派別。智慧型體agent會不斷執行一些操作,通過結果來學習,在不同的環境中分別應該採取怎樣的行動。問題來了,目標為什麼是預期累積獎勵最大化?因為,強化學習原本就是建立在獎勵假說的基礎之上。想表現好,就要多拿獎勵。每乙個時間步 time step 的累積獎勵都可以表示...
強化學習 簡介
一 強化學習要素 1 agent 智慧型體 2 environment 環境 3 state 狀態 4 policy 策略 5 action 動作 6 reward 獎勵 二 智慧型體與環境的互動過程 1 在每乙個時刻,環境 environment 都將處於乙個狀態 state 智慧型體 agent...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...