vs 監督學習、 無監督學習
特點要素
應用例項
強化學習早期歷史
2、 最優控制理論
3、 時序差分學習
q學習 - 整合
總結促成
智慧型體 、 環境、 動作、 收益、 狀態
增加了乙個觀測 , 取決於當前狀態
可能是乙個狀態變數的子集, 只有乙個部分是可觀測的
監督學習: 針對當前系統的帶標註的各種樣本
無監督學習: 沒有標註的資料中尋找到隱含結構
聚類,找到資料的劃分
強化學習: 需要去探索, 最大化, 不斷嘗試 , 最大化收益。
1、試探與開發
為了獲得更好的動作選擇空間, 需要探索新的動作。
在開發過的動作基礎上, 選擇新的動作。
2、 智慧型體和環境的互動問題
從智慧型體出發、 感知並影響環境。
注重於學習環境特徵。
3、 與其他工程 如 , 舒學成統計學、 優化理論、 心理學、神經科學互動。
1、 策略 派(a|s)
環境狀態到動作的對映
action -> state
2、 收益訊號 r(s,a)
定義了強化學習的目標
3、 價值函式
長期總收益的期望 e(gt )
** need
4、 對環境監理的模型
對環境行為的推斷
傳統解決辦法 : 極大極小演算法
使用固定評估方法 構建決策樹
動態規劃方法 : 序列決策問題, 在充分了解對手的前提下, 知道對手在每種狀態下的概率, 使用置信度計算最優屆。
進化方法: 遺傳演算法, 博弈過程中不改變決策, 根據結果改變策略, 爬山搜尋
狀態-價值表 (狀態 + 獲勝概率)
選擇動作
開發 vs 試探
更新狀態價值表
回溯型方法
箭頭瑣事
更新價值
st狀態的價值
a 狀態的價值更加接近於 c
固定價值的策略對手, 動作是確定的
對手會緩慢改變策略
在博弈過程中更新策略, 狀態價值表, 就是最後學到的策略。
每乙個狀態都是評估的方法。
效應定律 1911
快樂痛苦系統 1948
minsky , 1960 , steps toward ai
自動學習機動態規劃
馬爾可夫決策過程 是動態規劃的離散隨機
自適應動態規劃 、
融合了強化學習 和動態規劃的思想、 解決了動態規劃維度災難的難題
自適應、 在系統上迭代執行。
q學習演算法利用將來的獎勵 共同計算價值
當前狀態的價值 + 下一步的狀態價值
心理學的規律 可以應用過來 minsky
時序差分思想的跳棋程式
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習系列1 強化學習簡介
2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...