強化學習:自動進行決策並且可以做連續決策,包括agent、狀態、行動、獎勵四部分,目標是獲得最多的累計獎勵
原理:求解最優策略等價於求解最優的值函式
值函式選取策略更新的方式:
原理:通過隨機取樣的經驗平均來估計期望值
一次實驗,學習速度慢,效率不高
步驟:
agent與環境互動後得到互動序列,
通過序列計算各時刻的獎勵值
將獎勵累積到值函式中更新
根據更新的值函式更新策略
原理:結合動態規劃方法和蒙特卡羅方法,利用貝爾曼方程進行自迭代更新
原理:基於時序差分方法,採用遞進方式更新原有q值,減少估計誤差造成的影響,收斂到最優的q
異策略時序差分:動作策略是,目標策略是貪心策略
問題:現實中狀態維數很大甚至是連續的,不能遍歷所有的情況。
解決:將q矩陣q(s,a)更新變為乙個函式擬合問題:
強化學習筆記
1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...
強化學習筆記
policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...
強化學習 學習筆記
強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...