增強學習的基礎與入門

2021-08-11 10:08:48 字數 924 閱讀 7195

首先,要了解的乙個大概念,增強學習是並列監督學習和非監督學習的一種學習方法,不同於這兩種判斷是否有標籤的學習模式,增強學習是為了學習一種策略(policy),使得智慧型體(agent)能夠得到最大累積回報。其中,策略是一系列動作的總和,而智慧型體每乙個動作結束之後,都會產生乙個狀態,並且整個系統大環境會給智慧型體傳播乙個回報,回報的高低決定了這個state與最終所期望的state的遠近,同時也是對到達此state的行動(action)的衡量。

提到增強學習,最核心的理論基礎要數mdp(馬爾科夫決策過程),其包括及其重要的五元組,下面就五個概念進行一下說明:

s指的是狀態state的集合,是乙個靜態的過程,當智慧型體進行一次行動之後,必定會產生乙個狀態,而這個狀態會與環境(environment)產生互動資訊(好/壞)。

a指的是行動action的集合,包括了智慧型體所有可能的動作。

p指的是在狀態s下,執行行動a的概率。

gamma是折扣因子(阻尼係數),範圍在0到1之間,一般越接近1則表示未來的回報影響越高,而越接近0則表示未來的回報對總回報的影響較低。

r指的是從當前時間t開始時,一直到終止時間t結束的過程中的回報總和。

我們為什麼要學習增強學習?

當知道了增強學習中的一般概念和基本流程之後,我們先不急著進行公式的推導和優化,而先想想為什麼要學習增強學習,相比於監督學習和非監督學習來講,它能完成哪些監督學習和非監督學習無法完成的任務。

首先,增強學習相對於另外兩種使用十分廣泛的學習方法來講,特點十分鮮明的是:(1)序列性,既然是要學習最優的策略,目標一定是學習到一系列連線的動作,讓智慧型體知道哪一種動作序列能夠得到最接近目標的結果。(2)規則性,取代了樣本標籤的說法,無需人強加給機器的慣性思維,而只需要提供規則,讓機器在通過無數次的訓練反饋之後,自行的摸索經驗,得到最好的結果。(3)智慧型性,相比於傳統的統計機器學習來說,增強學習從概率入手,真正的邁出了向人工智慧的一大步,讓機器自學成才。

深度增強學習入門筆記(一)

知乎專欄智慧型單元的學習筆記,僅為自己學習所用,侵刪。openai的三個主要研究方向 1.深度生成模型 deep generative model 通過學習現有的資料生成新的資料。相關研究 1 otoro.net 學習文字自動生成新的文字 2 deep dream neural art 畫風遷移 3...

深度增強學習入門筆記(二)

知乎專欄智慧型單元的學習筆記,就真的只是一邊看一邊記的而已,僅為自己學習所用,侵刪。是增強學習領域最重要的乙個方程。使用價值函式進行決策就需要計算這個函式,那怎麼計算呢?bellman方程。簡而言之,bellman方程的作用 表明價值函式是可以迭代進行計算的。將價值函式的公式 a 表示,s代表狀態,...

機器學習方法篇 23 增強學習入門

別讓夢想的附屬品喧賓奪主。在小鬥去年五月份寫的 alphago技術剖析 揭開圍棋大腦的神秘面紗 這篇介紹alphago的文章中講到,alphago之所以能戰勝人類頂尖的圍棋手,主要是增強策略網路的功勞。而增強策略網路的核心技術,便是增強學習。那麼,增強學習到底是什麼?增強學習 reinforceme...