報告記錄 強化學習 導論 (不全)

2021-10-08 22:47:13 字數 1394 閱讀 2556

vs 監督學習、 無監督學習

特點要素

應用例項

強化學習早期歷史

2、 最優控制理論

3、 時序差分學習

q學習 - 整合

總結促成

智慧型體 、 環境、 動作、 收益、 狀態

增加了乙個觀測 , 取決於當前狀態

可能是乙個狀態變數的子集, 只有乙個部分是可觀測的

監督學習: 針對當前系統的帶標註的各種樣本

無監督學習: 沒有標註的資料中尋找到隱含結構

聚類,找到資料的劃分

強化學習: 需要去探索, 最大化, 不斷嘗試 , 最大化收益。

1、試探與開發

為了獲得更好的動作選擇空間, 需要探索新的動作。

在開發過的動作基礎上, 選擇新的動作。

2、 智慧型體和環境的互動問題

從智慧型體出發、 感知並影響環境。

注重於學習環境特徵。

3、 與其他工程 如 , 舒學成統計學、 優化理論、 心理學、神經科學互動。

1、 策略 派(a|s)

環境狀態到動作的對映

action -> state

2、 收益訊號 r(s,a)

定義了強化學習的目標

3、 價值函式

長期總收益的期望 e(gt )

** need

4、 對環境監理的模型

對環境行為的推斷

傳統解決辦法 : 極大極小演算法

使用固定評估方法 構建決策樹

動態規劃方法 : 序列決策問題, 在充分了解對手的前提下, 知道對手在每種狀態下的概率, 使用置信度計算最優屆。

進化方法: 遺傳演算法, 博弈過程中不改變決策, 根據結果改變策略, 爬山搜尋

狀態-價值表 (狀態 + 獲勝概率)

選擇動作

開發 vs 試探

更新狀態價值表

回溯型方法

箭頭瑣事

更新價值

st狀態的價值

a 狀態的價值更加接近於 c

固定價值的策略對手, 動作是確定的

對手會緩慢改變策略

在博弈過程中更新策略, 狀態價值表, 就是最後學到的策略。

每乙個狀態都是評估的方法。

效應定律 1911

快樂痛苦系統 1948

minsky , 1960 , steps toward ai

自動學習機動態規劃

馬爾可夫決策過程 是動態規劃的離散隨機

自適應動態規劃 、

融合了強化學習 和動態規劃的思想、 解決了動態規劃維度災難的難題

自適應、 在系統上迭代執行。

q學習演算法利用將來的獎勵 共同計算價值

當前狀態的價值 + 下一步的狀態價值

心理學的規律 可以應用過來 minsky

時序差分思想的跳棋程式

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...