強化學習的學習筆記

2021-10-07 07:25:10 字數 675 閱讀 2807

感謝李巨集毅教授的講解!

sample()函式在訓練過程中對應著「樣本增廣」的作用;

其實q-learning的思想很簡單,就跟把大象放進冰箱是差不多的,

基本的步驟是:

觀察環境,得到observation;

根據obs查詢q**,選擇q值最大的action;

執行該動作。

其實這兩種演算法的目標不同,導致了結果不同:

sarsa:使得sample()行為的reward的平均水平達到最大;

q-learning:使得maxq()行為的reward的達到最大;

如果動作狀態的空間是連續的,則使用q表可能無法對這種空間進行表述,(連續狀態的可能取值是無限多的),

於是我們將「狀態-q值」看作是一種對映,也就是說:使用函式對映的思想來描述「狀態-q值」的對映關係

既然是函式對映,於是我們的dnn就閃亮登場了~

在我看來actor和critic有著這樣的特點:

actor——本能者

critic——經驗者

具體的形式就是q function;

量化q的方法我們採用td,(這也是李教授講授的方法),

我感覺critic有著將reward規則進行可導化的作用;

感性認識:表達了模型對規則的理解,(同時將reward函式進行可導化);

強化學習 學習筆記

強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...