強化學習歷史

2021-10-13 10:06:07 字數 687 閱讀 1592

2023年,thorndike提出效果律(law of effect),從心理學的角度**了強化思想:動物感到舒服的行為會被強化,動物感到不舒服的行為會被弱化

2023年,馬文·明斯基(marvin minsky)在其博士**中實現了計算上的試錯學習

2023年,bellman提出求解最優控制問題的動態規劃方法,並提出了最優控制問題的隨機離散版本,即著名的馬爾科夫決策過程

2023年,howard提出馬爾科夫決策過程的策略迭代方法

2023年,明斯基在其**「steps toward artificial intelligence」中首次使用「reinforcement learning"一詞

*2023年,明斯基因在人工智慧領域的貢獻獲得圖靈獎

2023年,watkins提出了q-learning,將動態規劃、時序差分、蒙特卡洛模擬三條線結合在了一起

2023年,tesauro將強化學習成功應用到西洋雙陸棋

....

2023年,強化學習和深度學習結合:alphago

2023年,alphago zero

... ..

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...