policy iteration:
隨機選擇乙個策略,交替做兩件事:策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution, 為當前策略計算值函式v;策略改進即policy improvement, 即給定乙個值函式,得到乙個改進的策略。
value iteration:
s狀態下,最優的v值,應該等於q值最大情況下對應的a值,它是遠期回報的期望。
無模型假設
sarsa(state action reward, state』, action』。對q版本做td learning
q learning 價值函式迭代:
q:= q + α
\alpha
αoff-policy: 價值評估,和動作選擇並不是乙個策略(當下不錯,但我仍然按我之前的做法尋找最優策略,不為所動)
on-policy: 價值評估和動作選擇是乙個策略(並不好,容易走向極端,收斂到區域性最優)
強化學習筆記
1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...
強化學習 學習筆記
強化學習任務通常用馬爾可夫決策過程來描述 強化學習任務對應了四元組 強化學習的目標是在環境中不斷地嘗試而學得乙個 策略 policy 策略有兩種表示方法 確定性策略 表示為函式 隨機性策略 表示為概率 策略的優劣在於長期執行這一策略後得到的累積獎賞。強化學習任務中,學習的目的就是要找到能使長期累積獎...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...