強化學習系列1 強化學習簡介

2021-09-02 11:08:03 字數 1510 閱讀 8248

2023年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5:0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。

強化學習(reinforcement learning)是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程(markov decision process,mdp)。所謂馬爾科夫決策過程,指的是下一時刻的狀態僅由當前階段(包括狀態、決策)決定,不依賴於以往的狀態,用數學化的語言表達為:

問題是多階段決策過程,階段數為i

ii每個階段可能的狀態為集合s

is_i

si​。

每個階段可以做的決策為集合a

ia_i

ai​從當前階段狀態到下一階段狀態的轉移函式為p

pp,有si+

1=p(

si,a

i)s_=p(s_i,a_i)

si+1​=

p(si

​,ai

​)決策完成之後,當前階段對應的成本(或者獎賞)為ci=

c(si

,ai)

c_i=c(s_i,a_i)

ci​=c(

si​,

ai​)

。求解變數為a

ia_i

ai​,目標函式為最小化總成本(或者最大化總獎賞)σi∈

ici\sigma_c_i

σi∈i​c

i​如果階段之間的轉移存在隨機性,那麼狀態轉移函式為轉移概率psi

+1=p

(si+

1,si

,ai)

p_}=p(s_,s_i,a_i)

psi+1​

​=p(

si+1

​,si

​,ai

​),求解變數為ai=

π(si

)a_i = \pi(s_i)

ai​=π(

si​)

,當前階段期望成本為ci=

σsi+

1c(s

i+1,

si,a

i)ps

i+1c_i=\sigma _}c(s_,s_i,a_i)p_}

ci​=σs

i+1​

​c(s

i+1​

,si​

,ai​

)psi

+1​​

,目標函式為最小化期望總成本σi∈

ici\sigma_c_i

σi∈i​c

i​。模型在進行決策的時候有多種方法,這裡列舉常用的三種:

下面介再簡單描述一些重要概念:

有模型情況下,p

pp、r

rr是已知的,可以通過bellman方程求解v

vv。然而求解bellman的過程比較麻煩,實際操作中使用迭代的方法,分為以下兩種:

強化學習簡介

強化學習是機器想裡面非常重要的乙個派別。智慧型體agent會不斷執行一些操作,通過結果來學習,在不同的環境中分別應該採取怎樣的行動。問題來了,目標為什麼是預期累積獎勵最大化?因為,強化學習原本就是建立在獎勵假說的基礎之上。想表現好,就要多拿獎勵。每乙個時間步 time step 的累積獎勵都可以表示...

強化學習 簡介

一 強化學習要素 1 agent 智慧型體 2 environment 環境 3 state 狀態 4 policy 策略 5 action 動作 6 reward 獎勵 二 智慧型體與環境的互動過程 1 在每乙個時刻,環境 environment 都將處於乙個狀態 state 智慧型體 agent...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...