百度強化學習框架PARL入門強化學習

2021-10-07 11:33:10 字數 1926 閱讀 4617

parl框架github鏈結

parl框架gitee鏈結

走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架

監督學習和非監督學習的輸出為「是什麼」,是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價**。

強化學習的輸出是」決策「,通常用於策略類問題,比如阿爾法狗就是典型的強化學習成果。

sarsa 簡介

sarsa全稱是state-action-reward-state』-action』,目的是學習特定的state下,特定action的價值q,最終建立和優化乙個q**,以state為行,action為列,根據與環境互動得到的reward來更新q**,更新公式為:

sarsa在訓練中為了更好的探索環境,採用ε-greedy方式來訓練,有一定概率隨機選擇動作輸出。

q-learning簡介

q-learning也是採用q**的方式儲存q值(狀態動作價值),決策部分與sarsa是一樣的,採用ε-greedy方式增加探索。

q-learning跟sarsa不一樣的地方是更新q**的方式。

sarsa是on-policy的更新方式,先做出動作再更新。

q-learning是off-policy的更新方式,更新learn()時無需獲取下一步實際做出的動作next_action,並假設下一步動作是取最大q值的動作。

q-learning的更新公式為:

dqn簡介

**型方法儲存的狀態數量有限,當面對圍棋或機械人控制這類有數不清的狀態的環境時,**型方法在儲存和查詢效率上都受侷限,dqn的提出解決了這一侷限,使用神經網路來近似替代q**。

本質上dqn還是乙個q-learning演算法,更新方式一致。為了更好的探索環境,同樣的也採用ε-greedy方法訓練。

在q-learning的基礎上,dqn提出了兩個技巧使得q網路的更新迭代更穩定。

經驗回放 experience replay:主要解決樣本關聯性和利用效率的問題。使用乙個經驗池儲存多條經驗s,a,r,s』,再從中隨機抽取一批資料送去訓練。

固定q目標 fixed-q-target:主要解決演算法訓練不穩定的問題。複製乙個和原來q網路結構一樣的target q網路,用於計算q目標值。

整體來說就是利用了納什均衡原理,對於生成對抗網路有了解的同學應該很簡單就能理解。

policy gradient簡介

在強化學習中,有兩大類方法,一種基於值(value-based),一種基於策略(policy-based)

value-based的演算法的典型代表為q-learning和sarsa,將q函式優化到最優,再根據q函式取最優策略。

policy-based的演算法的典型代表為policy gradient,直接優化策略函式。

採用神經網路擬合策略函式,需計算策略梯度用於優化策略網路。

優化的目標是在策略π(s,a)的期望回報:所有的軌跡獲得的回報r與對應的軌跡發生概率p的加權和,當n足夠大時,可通過取樣n個episode求平均的方式近似表達。

優化目標對引數θ求導後得到策略梯度:

ddpg簡介

ddpg的提出動機其實是為了讓dqn可以擴充套件到連續的動作空間。

ddpg借鑑了dqn的兩個技巧:經驗回放 和 固定q網路。

ddpg使用策略網路直接輸出確定性動作。

ddpg使用了actor-critic的架構。

百度parl框架學習感受

很久沒有在csdn寫部落格了,因為所在地區的問題,csdn部落格在過去有幾年都無法訪問,現在重新開始。最近兩個月,由於工作上的需要開始研究深度學習和強化學習,一併開始尋找可用的深度學習框架。最初的選擇是在tensorflow和pytorch之間,因為它們是當前最流行的機器學習框架,網上資料比較多,學...

2020百度強化學習培訓體會

感謝美麗的科科老師,加班加點地用心備課和深入淺出的講解,讓我這個對強化學習一無所知的門外漢,也有機會登堂入室,一窺強化學習的奧妙與強大。一 相對於保守安全的sarsa演算法 也許是我功夫還不到吧,在cliffwalking遊戲中,雖然agent每次都成功的避開了懸崖旁邊的危險路徑,但經常是執行結果大...

百度7日強化學習總結

基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...