強化學習系列 1 基本概念

2021-09-12 14:04:00 字數 1659 閱讀 7735

figure 1-1 reinforcement learning is a multidisciplinary concept

3.強化學習如何解決問題以及一些相關概念

強化學習不同於有監督學習和無監督學習,它不關心輸入長什麼樣子,只關心當前輸入下應該採用什麼樣的動作才能實現最終目標。當前採用什麼動作與最終目標有關。也就是說當前採用什麼動作,可以是的整個任務序列達到最優。如何使整個任務序列達到最優呢?這就需要智慧型體不斷地與環境互動,不斷嘗試,因為智慧型體剛開始也不知道在當前狀態下哪個動作有利於實現目標。智慧型體通過執行動作與環境進行互動,環境會返回給智慧型體乙個當前回報,智慧型體則根據當前的回報評估所採取的動作:有利於實現目標的動作被保留,不利於實現目標的動作被摒棄。

具體來說,強化學習是指智慧型體(agent)以不斷試錯的方式進行學習,通過與環境互動獲得的獎勵來指導行為,最終的目標是使得智慧型體能夠獲得最大獎勵。簡單來說就是智慧型體在與環境不斷互動的過程中,逐漸提高自己的決策能力的過程。

基本概念:強化學習中有5個主要的基本概念,智慧型體(agent), 行為(action),環境狀態(state), 回報(reward), 策略(policy)。

學習過程:首先(env)環境會給智慧型體乙個初始狀態(state),智慧型體在接收到此狀態後會作出乙個動作(action),該動作將會對環境產生一定的影響(好的影響或者不好的影響),環境會根據該動作的好壞給予乙個獎勵(reward),並更新自己的狀態。再將狀態反饋給智慧型體,以此類推,直到學習結束。

figure 1-2 the learning process of reinforcement learning

4.強化學習的目的是什麼

獲得最大回報(reward)是強化學習中最重要的目標,它是乙個標量反饋訊號,或者說是乙個實數值, 表示agent在當前t時刻做的有多好。給一支香蕉和不給香蕉就可以認為是reward,假設定義為,而強化學習演算法的目標或者說優化函式就是最大化累計回報(maximise cumulative reward),對於序列化決策問題,強化學習就是選擇一些action使得將來回報最大;對於訓練猴子問題,強化學習目的就是通過讓猴子知道只有騎車到達目的地才能得到最多香蕉;對於走迷宮問題,就是讓機械人學習出一條路徑,按照這條路徑走才能最快出迷宮。

總之,不管什麼強化學習演算法,本質目的就是maximisation of expected cumulative reward,好比機器學習或者深度學習演算法,本質目的就是優化某個損失函式而已,而最大化累計回報也可以認為是函式,但是不能認為是損失函式(損失函式是要值下降的)。

5.強化學習演算法分類

1)根據強化學習演算法是否依賴模型可以分為基於模型的強化學習演算法和無模型的強化學習演算法。基於模型的強化學習演算法利用與環境互動得到的資料學習系統或者環境模型,再基於模型進行序貫決策。無模型的強化學習演算法則是直接利用與環境互動獲得的資料改善自身的行為。

2)根據策略的更新和學習方法,強化學習演算法可以分為基於值函式的強化學習演算法、基於直接策略搜尋的強化學習演算法以及ac的方法。基於值函式的強化學習方法是指學習值函式,最終的策略根據值函式貪婪得到。基於直接策略搜尋的強化學習演算法,一般是將策略引數化,學習實現目標的最優引數。基於ac的方法則是聯合使用值函式和直接策略搜尋。

3)根據環境返回的回報函式是否已知強化學習演算法可以分為正向強化學習演算法和逆向強化學習演算法。回報函式指定的強化學習演算法稱為正向強化學習。但是很多時候回報無法人為指定,如無人機的特效表演,這時可以通過機器學習的方法由函式自己學習出來回報。

強化學習基本概念

value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法,區別在於 value based是 某個state下所有action的期望價值 q值 之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的a...

強化學習基本概念

rl演算法種類 強化學習方法 相關概念 對於機器 先採取動作再接受環境的狀態和獎勵 對於環境 接受機器的動作,做出下乙個的狀態和獎勵 s0當前的狀態,a0當前的動作,r1當前的獎勵 馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關 強化學習的目標使rt最大化 1.每一時刻加起來的r e.p.人一...

強化學習的基本概念

mdp markov decission process 馬爾可夫決策流程 代表了強化學習要解決的問題。有幾個構成 1 一組 有限的 狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組 有限的...