rl演算法種類
強化學習方法
相關概念
對於機器:先採取動作再接受環境的狀態和獎勵
對於環境:接受機器的動作,做出下乙個的狀態和獎勵
s0當前的狀態,a0當前的動作,r1當前的獎勵…馬爾科夫決策下一刻的狀態只和當前狀態有關,和之前無關
強化學習的目標使rt最大化
1.每一時刻加起來的r(e.p.人一輩子的幸福度)
2.t時刻之後的幸福度
3.從t時刻開始,對未來每乙個時刻加乙個折扣(下一刻加乙個折扣,下下乙個兩個折扣)。越靠近現在的獎勵越在乎,越考後的獎勵
4.3化簡
最典型的離線學習就是 q learning, 後來人也根據離線學習的屬性, 開發了更強大的演算法, 比如讓計算機學會玩電動的 deep-q-network.
狀態s機器感知到的環境描述。乙個具體的地方和時刻,乙個具體的即時配置
動作空間a
機器可以採取的行動的集合
獎勵r環境反饋給機器乙個獎賞
q值在當前狀態採取某個動作,使t+1時刻折扣未來獎勵的最大值(未來每一步都採取最優策略的情況的累計折扣獎勵值)
q(s,a)=r+γmaxq中γ
獎勵遞減值(折扣值)
α學習效率來決定這次的誤差有多少是要被學習的,是乙個小於1 的數
epsilon
貪婪度 決定每回合採取最優動作的機率
qlearning
乙個基於值的強化學習演算法,利用 q 函式尋找最優的「動作—選擇」策略,找到當前狀態下使得q值最大的動作a,作為最佳策略
sarsa
決策部分和 q learning 一樣, 使用的是 q 表的形式決策, 在 q 表中挑選值較大的動作值施加在環境中來換取獎懲.不同的地方在於 sarsa 的更新方式是不一樣的.
單步更新
雖然每步都更新,但直到獲取寶藏上一步才獲得更新,之前的步都認為和寶藏沒有關係
回合更新
等到這回合結束, 才開始對本回合所經歷的所有步都新增更新, 但是這所有的步都是和寶藏有關係的
lambda
lambda=0時為單步更新,1為回合更新。在 0 和 1 之間為腳步衰減值,相當於離寶藏越近越重要
基於value
qlearning、sarsa 根據最**值來選著動作
基於概率
強化學習中最直接的一種, 通過感官分析所處的環境, 直接輸出下一步要採取的各種動作的概率, 所以每種動作都有可能被選中, 只是可能性不同
sarsa。必須是本人在場,學著自己在做的事情,說到做到
離線學習
qlearning 可以選擇自己行動,也可以選擇看著別人行動,通過看別人行動來學習別人的行為準則,從過往的經驗中學習,但是這些過往的經歷沒必要是自己的經歷,任何人的經歷都能被學習
強化學習基本概念
value based 或q learning 和policy based 或policy gradients 是強化學習中最重要的兩類方法,區別在於 value based是 某個state下所有action的期望價值 q值 之後通過選擇最大q值對應的action執行策略,適合僅有少量離散取值的a...
強化學習的基本概念
mdp markov decission process 馬爾可夫決策流程 代表了強化學習要解決的問題。有幾個構成 1 一組 有限的 狀態s s0,s1,s 2,st st 1.s 0,s 1,s 2,s t,s s0 s1 s2 st st 1 階段性任務的狀態集合記作s s s 2 一組 有限的...
強化學習系列 1 基本概念
figure 1 1 reinforcement learning is a multidisciplinary concept 3.強化學習如何解決問題以及一些相關概念 強化學習不同於有監督學習和無監督學習,它不關心輸入長什麼樣子,只關心當前輸入下應該採用什麼樣的動作才能實現最終目標。當前採用什麼...