增強學習(一) 基本概念的理解

2021-08-16 13:40:33 字數 774 閱讀 8668

reinforcement learning

1.定義:

reinforcement learning is learning what to do —-how to map situations to actions —- so as to maximize a numerical reward signal.

增強學習關注的是:智慧型體agent如何在環境中採取一系列行為,從而獲得最大的累積回報。

機器學習的演算法可以分為三類:

監督學習

非監督學習

增強學習

2.增強學習和非監督學習的區別:

增強學習是試錯學習(trail-and-error),由於沒有直接的指導思想,智慧型體要以不斷地域環境互動,通過試錯的方式來獲取最佳策略。

延遲回報,增強學習的知道資訊很少,而且往往在事後(最後乙個狀態)才給出的,這就導致了乙個問題,就是在獲得正回報或者負回報以後,如何將資訊分配給前面的狀態。

3.強化學習有幾個元素:

輸入:

states:狀態環境,例如迷宮中的每乙個小格仔就是乙個state

actions:行為,在每個狀態下,有什麼行為是允許的

rewards:回饋,進入每個狀態時,能帶來的正面的或者負面的價值

輸出:

policy:在每個狀態下,會選擇哪個行為

4.演算法

參考文獻:

基本概念理解 回送

回送 指客戶端的頁面傳送回伺服器端。注意 該頁面包含所有窗體資訊,此前已經在伺服器端載入過並已傳送到客戶端顯示。舉例說明 頁面上有兩個控制項 label1和button1,label1的文字屬性text為 abc 事件處理程式button1 click的操作是在label1.text文字屬性上新增 ...

Angular基本概念理解

nztable 模組變數 輸入 繫結值 輸出 繫結事件 補充說明 是控制項監控外部變化 是監聽事件,交給外部變化內部值的權利 二者都是 監聽 非一次性 name a a發生變化,name一直跟著改變,但是name發生變化,a不改變 總之寫在哪個元件,哪個元件就被動接受值 寫在哪個元件,就是監聽哪個元...

基本概念理解(三)

1 命名空間的using宣告可以省去在每次使用某命名空間中的名字時輸入字首,但是在標頭檔案中,必須總是使用完全限定的標準庫名字。2 現代c 程式應盡量使用vector和迭代器,而避免使用低階的陣列和指標。設計良好的程式只有在強調速度時才在類實現的內部使用陣列和指標。陣列的顯著缺陷在於 陣列的長度是固...