強化學習原理學習記錄(1)2020 10 07

2021-10-10 01:48:18 字數 1446 閱讀 1965

1.強化學習要解決的問題:智慧型決策問題。更確切地說是序貫決策問題,序貫決策就是 需要連續不斷地做出決策,才能實現最終⽬標的問題。

2.強化學習如何解決問題:強化學習要解決的是序貫決策問題,它不關⼼輸⼊ ⻓什麼樣,只關⼼當前輸⼊下應該採⽤什麼動作才能實現最終的⽬標,當前採⽤什麼動作與最終的⽬標有關。也就是說當前採⽤什麼動 作,可以使得整個任務序列達到最優。如何使整個任務序列達到最優呢? 這就需要智慧型體不斷地與環境互動,不斷嘗試,智慧型體通過動作與環境進⾏互動時,環境會返給智慧型體⼀個當 前的回報,智慧型體則根據當前的回報評估所採取的動作:有利於實現⽬標的動作被保留,不利於實現⽬標的動作被衰減。

3.強化學習與監督學習的異同點:強化學習和 監督學習的共同點是兩者都需要⼤量的資料進⾏訓練,但是兩者所需要的 資料型別不同。監督學習需要的是多樣化的標籤資料,強化學習需要的是 帶有回報的互動資料。

4.強化學習的分類:

(1)根據是否依賴模型:分為基於模型的強化學習演算法和⽆模型的強化學習演算法

共同的:通過與環境互動獲得 資料

不同點:利⽤資料的⽅式不同。基於模型的強化學習演算法利⽤與環 境互動得到的資料學習系統或者環境模型,再基於模型進⾏序貫決策。⽆ 模型的強化學習演算法則是直接利⽤與環境互動獲得的資料改善⾃⾝的⾏為。⼀般來講基於模型的強化學習演算法效率要⽐⽆ 模型的強化學習演算法效率更⾼,因為智慧型體在探索環境時可以利⽤模型資訊。有些根本⽆法建⽴模型的任務只能利⽤⽆模型的強化學習算 法。由於⽆模型的強化學習演算法不需要建模,所以和基於模型的強化學習 演算法相⽐,更具有通⽤性。

(2)根據策略的更新和學習方法:根據策略的更新和學習⽅法,強化學習演算法可分為基於值函式的 強化學習演算法、基於直接策略搜尋的強化學習演算法以及ac的⽅法。

基於值函式的強化學習⽅法:是指學習值函式,最終的策略根據值函式貪婪得 到。也就是說,任意狀態下,值函式最⼤的動作為當前最優策略

基於直接策略搜尋的強化學習演算法:⼀般是將策略引數化,學習實現⽬標的最優引數

基於ac的⽅法則:是聯合使⽤值函式和直接策略搜尋

(3)根據環境返回的回報函式是否已知:強化學習演算法可以分為正向 強化學習和逆向強化學習。

正向強化學習:回報函式是⼈為指定的,回報 函式指定的強化學習演算法稱為正向強化學習

逆向強化學習:回報⽆法⼈為指 定,如⽆⼈機的特效表演,這時可以通過機器學習的⽅法由函式⾃⼰學出 來回報

ps:為了提公升強化學習的效率和實⽤性,學者們⼜提出了很多強化學習算 法,如分層強化學習、元強化學習、多智慧型體強化學習、關係強化學習和 遷移強化學習等。

5.強化學習的發展趨勢:

第⼀,強化學習演算法與深度學習的結合會更加緊密。

第⼆,強化學習演算法與專業知識結合得將更加緊密

第三,強化學習演算法理論分析會更強,演算法會更穩定和⾼效

第四,強化學習演算法與腦科學、認知神經科學、記憶的聯絡會更緊 密。

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...

強化學習 1 1 0 強化學習介紹

abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...

強化學習系列1 強化學習簡介

2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...