百度7日強化學習總結

2021-10-07 12:30:12 字數 734 閱讀 7240

基本概念包括:

兩部分:agent智慧型體,environment 環境

三要素:state狀態,動作action,reward獎勵。

agent學習兩種策略

基於價值的value-based:隨機性策略,代表性的有sarsa,q-learning,dqn

基於策略的policy-based:隨機性策略,代表方法:policy gradient

第二課:**型方法

方法包括sarsa方法:

on-policy策略,優化實際執行策略。

q_learning方法:

off-policy策略。

神經網路方法求解強化學習-dqn

本質上dqn還是q_learning方法

sarsa:是on-online

神經網路方式

策略梯隊演算法

連續動作空間上上求解rl

百度強化學習框架PARL入門強化學習

parl框架github鏈結 parl框架gitee鏈結 走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架 監督學習和非監督學習的輸出為 是什麼 是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價 強化學習的輸出是 決策 通常用於策略類問題,比如阿爾法狗就是典型的強...

百度強化7日打卡學習心得

強化學習包含智慧型體和智慧型體所在的環境兩部分,如下圖,智慧型體又要和環境進行互動,互動主要是指智慧型體的動作會根據環境的狀態獲得獎勵或懲罰,如下圖,強化學習的應用也很廣泛,如下圖,強化學習和其他學習的關係,如下圖,強化學習對比其他學習注重的是決策問題,通過智慧型體與周邊環境的互動學會了如何能獲得更...

2020百度強化學習培訓體會

感謝美麗的科科老師,加班加點地用心備課和深入淺出的講解,讓我這個對強化學習一無所知的門外漢,也有機會登堂入室,一窺強化學習的奧妙與強大。一 相對於保守安全的sarsa演算法 也許是我功夫還不到吧,在cliffwalking遊戲中,雖然agent每次都成功的避開了懸崖旁邊的危險路徑,但經常是執行結果大...