強化學習之概述

2021-08-21 16:41:45 字數 3010 閱讀 6573

面向智慧型體的學習–通過與乙個環境進行互動來實現目標

通過試錯和優化進行學習–用試錯後的獎勵(或懲罰)進行學習

監督學習本質上可以認為是強化學習的一種特殊形式(無延遲場景)

強化學習更貼近人類的學習過程

強化學習可能是通往通用人工智慧的道路,目前人工智慧都是弱人工智慧

強化學習整體結構由環境,智慧型體及之間的互動組成,每個時刻t:

強化學習主要包括三個要點:獎勵,狀態和動作。

獎勵是強化學習的核心,可以沒有觀測,但是不能沒有獎勵。獎勵是強化學習區別其他機器學習的標誌特徵。獎勵的特點包括:

舉例:

注:獎勵並不要求一定要有正有負,只有正的獎勵和負的獎勵就可以,因為看的是相對值

長期獎勵

每乙個動作都有可能是乙個長期的結果,獎勵可能有延遲,有時我們需要犧牲一些短期獎勵來獲取更多長期的獎勵,比如下圍棋,只有在最後才能獲得獎勵

獎勵值與回報值

回報值

當智慧型體在時間t做出動作at

a

t時,會在未來收到獎勵序列,我們的目的是使累計獎勵最大。一種通用的累計獎勵的定義是將這些獎勵值進行加權求和: gt

=wtr

t+wt

+1rt

+1+w

t+2r

t+2+

... gt=

wtrt

+wt+

1rt+

1+wt

+2rt

+2+.

..我們把gt

g

t稱為回報值。回報值衡量了動作at

a

t對未來結果的影響,強化學習的目的就轉化為在每個時刻,使未來的期望回報值最大

回報值有兩種,分為無衰減和有衰減: wt

+n=γ

n,γ∈

[0,1

] wt+

n=γn

,γ∈[

0,1]

其中

γ γ

稱為衰減係數

歷史是乙個觀測,動作和獎勵的序列 ht

=o1,

r1,a

1,o2

,r2,

a2,.

..,a

t,ot

,at ht=

o1,r

1,a1

,o2,

r2,a

2,..

.,at

,ot,

at狀態是歷史的一種狀態,根據狀態我們可以判斷接下來發生什麼,本質上狀態是歷史的乙個函式st

=f(h

t)s t=

f(ht

)

注:對於智慧型體來說,環境狀態是未知的,智慧型體狀態是已知的;智慧型體通過智慧型體的狀態做出相應的動作,沒有特殊說明的情況下,我們所說的狀態均值智慧型體狀態st

=sat

s t=

sta全觀測環境和部分觀測環境

動作是智慧型體主動和環境互動的媒介,必須對環境起到一定的控制作用(尤其是對獎勵),動作序列a1

,a2,

a3,.

..a 1,

a2,a

3,..

.能夠影響智慧型體的回報值

可解釋的強化學習問題必須滿足兩個條件:

強化學習的智慧型體主要由策略,值函式和模型組成。

策略是智慧型體的核心,我們最終的目的就是找到乙個策略。它是乙個從狀態到動作的對映,可以描述智慧型體的行為,直接描述是:當智慧型體在什麼狀態時應該做什麼事。

策略分兩大類:

值函式是對回報值的**,主要用來評價不同狀態的好壞,可以用來指導動作的選擇 vπ

(s)=

eπ[g

t|st

=s]=

e[rt

+1+γ

rt+2

+...

|st=

s]v π(

s)=e

π[gt

|st=

s]=e

[rt+

1+γr

t+2+

...|

st=s

]模型指智慧型體所擁有的對環境的觀測模型,主要包含兩部分:

這裡我們將環境看成乙個黑盒子,只關心其輸入輸出

按智慧型體的成分分類

按有無模型分類

按使用手段分類

對於序列決策問題有兩個基本問題:

規劃

既利用模型進行規劃,由於環境互動進行強化學習,這就構成了基於模型的強化學習

當有很精確的環境模型時,可以直接用規劃的方式解

探索和利用是強化學習的根本問題,強化學習會根據過去的經驗得到乙個好的策略:

探索是為了能夠發現環境的更多資訊

利用是為了利用當前已知的資訊來最大化回報值

評價和優化是強化學習的基本思路

評價:給出乙個策略,評價該策略的好壞,即求對應的值函式

優化:找到最優的策略

強化學習筆記(1) 概述

強化學習的兩大主體 agent和environment 強化學習討論的問題是乙個智慧型體 agent 怎麼在乙個複雜不確定的環境 environment 裡面去極大化它能獲得的獎勵。當前的 agent 去跟環境互動,你就會得到一堆觀測。你可以把每乙個觀測看成乙個軌跡 trajectory 一場遊戲叫...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習之Q learning

三要素 狀態 state 動作 action 獎賞 reward 更具具體情況自行進行給定。q更新公式 q是什麼?動作效用函式 action utility function 用於評價在某一狀態下採取某個動作的優劣。如果q訓練好了,之後 時就可以按照q進行選擇動作。詳解q更新函式 是學習速率 是折扣...