強化學習學習筆記(五) 值函式估計

2022-06-10 15:15:11 字數 589 閱讀 2039

1.了解表查詢中函式逼近的動機

2.了解如何將函式逼近合併到現有演算法中

3.了解函式逼近器和rl演算法的收斂特性

4.了解使用經驗重播的批處理

1.建立乙個大表(每個狀態或狀態-動作對乙個值)會導致記憶體和資料效率低下。 通過使用特徵化狀態表示,函式逼近可以推廣到看不見的狀態。

2.將rl視為有監督的學習問題,以mc或td目標為標籤,當前狀態/動作為輸入。 通常目標也取決於函式估計器,但是我們只是忽略了它的梯度。 這就是為什麼這些方法稱為半梯度方法。

3.挑戰:我們擁有非平穩(策略更改,引導)和非iid(時間相關)資料。

4.許多方法都假定我們的動作空間是離散的,因為它們依賴於計算所有動作的argmax。 大型且連續的動作空間正在持續研究中。

5.對於control,幾乎沒有收斂保證。 對於非線性逼近器,基本上根本沒***。 但是他們傾向於在實踐中工作。

6.經驗重播:將體驗儲存為資料集,將其隨機化,然後重複應用小批量sgd。

7.穩定非線性函式逼近器的技巧:固定目標。根據前一時間步長中凍結的引數值來計算目標。

8.對於非個案(連續)案例,函式逼近更為複雜,我們需要放棄折現,並使用「平均獎勵」公式。

強化學習 五

inverse reinforcement learning 方法與gan在影象生成中有什麼異曲同工之處?答 在gan 中,我們有一些比較好的資料集,也有乙個generator,一開始他根本不知道要產生什麼樣的圖,只能隨機生成。另外我們有乙個discriminator,其用來給生成的圖打分,expe...

強化學習 學習筆記

強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...