乙個時間離散化的智慧型體、環境介面可以用這樣的軌道表示:
s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3…
在進行t個回合後,迴圈將會停止,記為:
s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3…st=s終止
如果環境是可觀測的,那麼ot=st,完全觀測軌道任務簡化為;
s0,a0,r1,s1,a1,r2,s2,a2,r3…st=s終止
在上述基礎上引入概率和markov性得到決策過程模型,定義時間t,從狀態st=s和動作at=a跳躍到下乙個狀態st+1=s』和獎勵rt+1=r的概率為:
pr[st+1=s』,rt+1=r = r丨st=s,at=a]
如果狀態空間、動作空間、獎勵空間都是元素個數有限的集合,這樣的markov決策過程稱為有限markov決策過程。
markov性是markov決策過程模型對狀態的額外約束,它要求狀態必須含有可能對未來影響的所有過去資訊。
如果狀態空間s、動作a、獎勵空間r都是元素個數有限的集合,這樣的markov決策過程稱為有限的markov決策過程。
對於有限markov決策過程,可以定義函式p:srs*a→[0,1]為markov決策過程的動力
p(s』,r丨s,a)=pr[st-1=s』,rt-1=r丨st=s,at=a]
狀態轉移概率:
p(s』丨s,a) = pr[st+1=s』丨st=s,at=a]=∑(r∈r)p(s』,r丨s,a),s∈s,a∈a,s』∈s
獎勵、回報與價值函式
回報gt總和為:
gt=rt+1 + …+rt
由於連續性的任務沒有終止時間,所以gt會包括以後所有獎勵資訊。如果對未來獎勵資訊簡單求和,未來獎勵信心的總和往往是無窮大,為了解決這個問題,引入了折扣將rt前乘以折扣因子r∈[0,1]若rt等於0,智慧型體只會考慮眼前利益,完全無視遠期利益,就相當於貪心演算法的效果,若指定r=1,智慧型體會認為單前1單位獎勵和未來的1的單位獎勵是一樣重要的,對於連續性任務,一般設定r∈(0,1)時,如果未來每一步的獎勵有界,則回報也是有界的。
強化學習學習筆記(第二章,多臂賭博機)
本章節以多臂賭博機為模型,介紹了若干個在簡化環境下的強化學習演算法 動作不會影響下一時刻的情景和收益 1 貪心演算法,每次選擇期望收益最大的動作 2 貪心,在貪心演算法的基礎上,有 的概率從所有的動作中等概率選擇乙個。如果比較大可以更快的找到收益最大的動作,但是會影響選擇選擇收益最大動作的概率 0....
Oracle強化 第二章 編寫控制結構
1.寫乙個pl sql塊 向dept表中迴圈插入5條記錄,每一條記錄的deptno 值比表中最大的deptno 值增加1,dname分別為 education1 education2 education5 loc 值都為空.2.1到30之間,能被3整除的數列印出來 3.輸入4位整數,判斷是否是閏年 ...
C primer之第二章
閱讀至2.5.2時,發現乙個不知道的知識點 如果某個型別的別名指代的是復合型別或是常量,那麼它用到宣告語句裡面就會產生意想不到的後果,例如下面的宣告語句用到了型別pstring,它實際上是型別char 的別名 typedef char pstring 1 const pstring cstr 0 c...