EnforceLearning 被動強化學習

2022-08-22 08:33:09 字數 2471 閱讀 5300

前言

畫圖挺好:深度學習高階之路-從遷移學習到強化學習

專家系統給出了知識節點和規則,使用粒度描述準確性,依靠分解粒度解決矛盾,並反饋知識和推理規則更新。專家系統與機器學習有本質區別,但從機器學習的角度看,專家系統是乙個給出了規則/函式又給了函式引數的學習模型,其直接影響是泛化效能極差,容易導致矛盾。這樣,每乙個專家系統的更新都涉及到知識節點(規則引數)的分解重構,形式上等價於函式複合化。

機器學習系統設計也遵循了模式識別的一般構架與過程。一般在特定或者廣泛的應用領域,先給出目標/評價函式,以期待完成預期的結果。再依據目標/評價函式設計滿足目標函式的規則系統/數學模型,以期待能完成目標函式所要求的功能。而應對與每個領域,由實體到數學模型的轉化,產生了乙個特徵描述的專家過程,把領域實體表示為學習系統可以接受的輸入資料。

機器學習劃分出的非監督學習與監督學習,在於是否使用了示例來指導數學模型的優化過程。監督學習給出了形式化的目標函式,形式化的數學模型,形式化的特徵提取過程,並且給出了同倫對映空間模型引數的一些閾值確界,學習過程是通過閾值確界通過目標函式約束來優化數學模型的過程。非監督學習沒有給出模型引數閾值,但依然有形式化的目標函式,形式化的數學模型和形式化的特徵提取過程,主要通過目標函式和數學模型精細結構調整來達到預期目標。

傳統的機器學習系統是乙個模型逐漸優化的學習系統,學習的終極目標是收斂到乙個最優解,期待是確定的數學模型。傳統的ml系統方法期待模型直接學習到模式的空間結構,並得到空間結構的等價模型對映,相對於任意模型,學習到的模型是e精度最優的,即是e精度最接近的,這就意味著最大的準確率和最大的泛化效能。

跨越到連線主義的範疇,強化學習是乙個反饋式學習系統,其期待是乙個不斷根據反饋進行優化的模型,並非一次成型。

專家系統由專家構建明確的推理規則和知識節點,模型約束為邏輯約束;監督學習構建明確的函式模型和模型引數,模型約束為拓撲約束;非監督學習形式與監督學習不同而結果相同。強化學習系統附加了乙個強化規則/函式,用於實時更新模型。

被動強化學習

直接抄書.....

本章主要講agent如何從成功與失敗中、回報與懲罰中進行學習。

reinforcement learning的任務是利用觀察到的回報來學習針對每個環境的最優或者接近最優策略。在此,agent沒有完整的環境模型或者回報函式 兩者的先驗知識。rl囊括了人工智慧的全部,乙個agent被置於乙個環境中,並學會在其間游刃有餘。

強化學習,致使agent面臨乙個未知的馬爾科夫過程。

被動強化學習:

完全可觀察環境的狀態下使用基於狀態表示的被動學習。在被動學習中,agent的策略是pi是固定的:在狀態s中,它總是執行行動pi(s)。

其目標只是簡單的學習:該策略有多好,即是學習效用函式u(s).

被動學習的任務類似於 策略評價 任務。

1、直接效用估計

由widrow和hoff在1950s末末期在自適應控制理論裡面提出的 直接效用估計。思想為:認為乙個狀態的效用是從該狀態開始往後的期望總回報,二每次實驗對於每個被訪問狀態提供了該值的乙個樣本。

直接效用估計使rl成為監督學習的乙個例項,其中每乙個學習都以狀態為輸入,以觀察得到的未來回報為輸出。此時,rl已經被簡化為標準歸納學習問題。

後記:作為作準歸納學習的直接效用估計,是穩定的且收斂的。

2、自適用動態規劃

動態規劃方程

忽略了狀態之間的聯絡,直接效用估計錯失了學習的機會。並且,直接效用估計可視為在比實際大得多的假設空間中搜尋u,其中包括了違反berman方程組的函式,因此due.演算法收斂的非常慢。

自適應動態規劃adp.(adaptive dynamic program),agent通過學習連線狀態的轉移模型,並使用動態規劃方法來求解markov過程,來利用狀態效用之間的約束。

後記:作為規劃過程的自適應動態規劃,整個過程是不穩定的,且收斂性更不確定。

3、時序差分學習

時序差分學習td.(timporal-difference)

求解前一節內在的mdp並不是讓berman方程來承擔學習問題的唯一方法。另外一種方法是:使用觀察到的轉移來調整觀察到的狀態的效用,使得它滿足約束方程。

adp方法和td方法實際上是緊密相關的。二者都試圖對效用估計進行區域性調整,以使每一狀態都與其後繼狀態相「一致」。乙個差異在於 td調整乙個狀態使其與所有已觀察的後繼狀態相一致,而adp則調整該狀態使其與所有可能出現的後繼狀態相一致,根據概率進行加權。.......

演化出的近似adp演算法可以提高幾個數量級的運算速度,然後......

後記:

時序差分學習的學習物件是所有已觀察狀態,所以預計的結果是有偏的。

EnforceLearning 主動強化學習

前言 被動學習agent由固定的策略決定其行為。主動學習agent必須自己決定採取什麼行動。具體方法是 agent將要學習乙個包含所有行動結果概率的完整模型,而不僅僅是固定策略的模型 接下來,agent自身要對行動做出選擇 它需要學習的函式是由最優策略所決定的,這些效用遵循 berman方程 最後的...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...