百度強化7日打卡學習心得

2021-10-07 11:12:26 字數 1215 閱讀 9670

強化學習包含智慧型體和智慧型體所在的環境兩部分,如下圖,

智慧型體又要和環境進行互動,互動主要是指智慧型體的動作會根據環境的狀態獲得獎勵或懲罰,如下圖,

強化學習的應用也很廣泛,如下圖,

強化學習和其他學習的關係,如下圖,

強化學習對比其他學習注重的是決策問題,通過智慧型體與周邊環境的互動學會了如何能獲得更多的獎勵。

parl除了用來開發強化學習演算法,提供了十分便捷的python多執行緒平行計算介面,可以單獨拿來做運算加速。眾所周知,python由於gil(全域性鎖)的存在,不能充分利用多核cpu實現真正意義的多執行緒並行運算。多程序雖然可以避免全域性鎖的問題,但程序間通訊會增加開發難度。parl在底層解決了這些問題,使用者在寫**時只需在需要平行計算的地方新增修飾符(@parl.remote_class),然後按照一般多執行緒的寫法程式設計即可利用多cpu實現真正的並行化。這個真的很讚。

如果大家有算力,可以使用paddlegpu來訓練模型,具體操作為

選擇高階版執行環境

安裝paddle-gpu

!pip install paddlepaddle-gpu==1.6.3.post107 -i  --trusted-host pypi.douban.com
如果訓練意外中斷,在train**中可以加入agent.restore()從上一次中斷的模型中找乙個作為其實模型繼續訓練。

if os.path.exists(os.path.join('model_dir_3','steps_210863.ckpt')):

agent.restore(os.path.join('model_dir_3','steps_210863.ckpt'))

百度7日開啟營 Python AI學習心得

之前才加了疫情cv的打卡營,大概了解了paddlepaddle是如何構建神經網路 訓練模型 使用模型,但再過程中由於對python不了解 寫起來比較困難。所以,當得知有python基礎的打卡營,就第一時間報名了。一 感觸 到現在一共上了6次課,前3次是python相關的知識,後3節課是基於paddl...

百度7日強化學習總結

基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...

GNN 百度GNN7日打卡營心得

本次打卡營收穫許多,了解到圖更深層次的應用。許多演算法的機理是簡單的,卻能有巨大的應用。第一次課是對圖論的複習以及圖學習的乙個初步介紹,我的學習筆記可見 第二次課是對圖遊走類模型中的deepwalk node2vec methpath2vec進行介紹。因為如果一幅圖很大 節點 邊數太多 則在訓練時若...