強化學習 學習筆記

2021-10-11 00:07:55 字數 1489 閱讀 2216

強化學習任務通常用馬爾可夫決策過程來描述:

強化學習任務對應了四元組

強化學習的目標是在環境中不斷地嘗試而學得乙個「策略」(policy)

策略有兩種表示方法

確定性策略

表示為函式

隨機性策略

表示為概率

策略的優劣在於長期執行這一策略後得到的累積獎賞。

強化學習任務中,學習的目的就是要找到能使長期累積獎賞最大化的策略。

強化學習與監督學習的差別:

強化學習

監督學習

狀態樣本

動作標籤

策略分類器/回歸器

最大化單步獎賞

exploration-only 僅探索 (估計搖臂優劣)目的:為獲知每個搖臂的期望獎賞。

exploitation-only 僅利用 (選擇當前最優搖臂)目的:執行獎賞最大的動作。

exploration-exploitation dilemma 探索-利用窘境,嘗試次數有限,加強一方,自然會削弱另一方。

基於乙個概率

即每次嘗試時,以

第基於當前已知的搖臂平均獎賞來對探索和利用進行折中。

演算法中選中各個搖臂的概率:

對於離散狀態空間離散動作空間上的多步強化學習任務,一種直接的辦法是將每個狀態上動作的選擇看作乙個k-搖臂賭博機問題,用強化學習任務的累積獎賞來代替k-搖臂賭博機演算法中的獎賞函式,即可將賭博機演算法用於每個狀態。

這種做法的侷限:沒有考慮強化學習任務馬爾可夫決策過程的結構。

多步強化學習任務中,任務對應的馬爾可夫決策過程四元組

對某個策略的累積獎賞進行評估後,若發現它並非最優策略,則當然希望對其進行改進。

理想的策略應能最大化累積獎賞。

強化學習目的是求得乙個最優解,得到最優解的方法:

策略迭代(policy iteration):從乙個初始策略出發,先進行策略評估,然後改進策略,評估改進的策略,再進一步改進策略,...不斷迭代進行策略評估和改進,直到策略收斂、不再改變為止。這樣的做法稱為「策略迭代」(policy iteration)。

值迭代(value iteration):策略改進和值函式的改進是一致的,因此可將策略改進視為值函式的改善。

現實的強化學習任務中,

若學習演算法不依賴於環境建模,則稱為「免模型學習」(model-free learning)。這比有模型學習困難得多。

免模型情形下遇到的困難:策略無法評估,因為模型未知,無法做全概率展開。

只能在環境中執行選擇的動作,來觀察轉移的狀態和得到的獎賞。

蒙特卡羅強化學習:一種直接的策略評估替代方法是多次「取樣」,然後求取平均累積獎賞來作為期望累積獎賞的近似。這稱為蒙特卡羅強化學習。

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...