強化學習框架總結

2021-09-28 22:04:38 字數 1564 閱讀 7096

設定,重新經歷

強化學習 (rl) 框架包含學習與其環境互動的智慧型體。

在每個時間步,智慧型體都收到環境的狀態(環境向智慧型體呈現一種情況),智慧型體必須選擇相應的響應動作。乙個時間步後,智慧型體獲得乙個獎勵(環境表示智慧型體是否對該狀態做出了正確的響應)和新的狀態。

所有智慧型體的目標都是最大化預期累積獎勵,或在所有時間步獲得的預期獎勵之和。

2階段性任務與連續性任務

任務是一種強化學習問題。

連續性任務是一直持續下去、沒有結束點的任務。

階段性任務是起始點和結束點明確的任務。

在這種情況下,我們將乙個完整的互動系列(從開始到結束)稱為乙個階段。

每當智慧型體抵達最終狀態,階段性任務都會結束。

3獎勵假設

獎勵假設:所有目標都可以構建為最大化(預期)累積獎勵。
4目標和獎勵

(請參閱第 1 部分和第 2 部分,以檢視在現實問題中如何指定獎勵訊號的示例。)
5累積獎勵

在時間步 ttt 的回報是 gt:=rt+1+rt+2+rt+3+…

智慧型體選擇動作的目標是最大化預期(折扣)回報。(注意:折扣將在下部分講解。)

6折扣回報

在時間步 t 的折扣回報是 gt:=rt+1+γrt+2+γ2rt+3+。

折扣回報 γ是你設定的值,以便進一步優化智慧型體的目標。

它必須指定 0≤γ≤1。

如果 γ=0,智慧型體只關心最即時的獎勵。

如果 γ=1,回報沒有折扣。

γ的值越大,智慧型體越關心遙遠的未來。γ 的值越小,折扣程度越大,在最極端的情況下,智慧型體只關心最即時的獎勵。

7mdps和一步動態特性

狀態空間s是所有(非終止)狀態的集合。

在階段性任務中,我們使用s+表示所有狀態集合,包括終止狀態。

動作空間a是潛在動作的集合。 (此外,a(s)是指在狀態s∈s的潛在動作集合。)

(請參閱第 2 部分,了解如何在**機械人示例中指定獎勵訊號。)

環境的一步動態特性會判斷環境在每個時間步如何決定狀態和獎勵。可以通過指定每個潛在 s′,r,s,and a的 p(s′,r∣s,a)≐p(st+1=s′,rt+1=r∣st=s,at=a)定義動態特性。

乙個(有限)馬爾可夫決策過程 (mdp) 由以下各項定義:

一組(有限的)狀態 s(對於階段性任務,則是 s+)

一組(有限的)動作 a

一組獎勵r

環境的一步動態特性

折扣率 γ∈[0,1]

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

百度強化學習框架PARL入門強化學習

parl框架github鏈結 parl框架gitee鏈結 走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架 監督學習和非監督學習的輸出為 是什麼 是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價 強化學習的輸出是 決策 通常用於策略類問題,比如阿爾法狗就是典型的強...

強化學習知識總結

參考文章 研一接觸了強化學習,然後對其就產生了很大的興趣。雖然有在莫煩python上學習,也自己做過很簡單的專案,但是之前對rl的學習比較混亂並不系統。正好看到這篇文章,感覺對自己有很大的幫助,就根據作者列出的知識點進行擴充套件學習。model free就是不去學習和理解環境,環境給出什麼資訊就是什...