pip install -u paddlepaddle
快速開始 paddle
這裡有很多基礎概念
幾個重要的概念
paddle 的設計思想
parl 的特點包括:
使用parl的目標是構建乙個強化學習智慧型體,構建主要基於3個類:
熟悉gym 的小練習
熟悉gym 的小練習env = gym.make(
'cartpole-v0'
)obs = env.reset(
)obs, r, done, info = env.step(a)
env.render(
)env.close(
(env.action_space)
#> discrete(2)
(env.observation_space)
#> box(4,)
(env.observation_space.high)
#> array([ 2.4 , inf, 0.20943951, inf])
(env.observation_space.low)
#> array([-2.4 , -inf, -0.20943951, -inf])
問題import gym
import time
env = gym.make(
'cartpole-v0'
)#創造環境
obs = env.reset(
)#初始化環境,observation為環境狀態
count =
0for _ in
range
(100):
a = env.action_space.sample(
)#隨機取樣動作
obs, r, done, info = env.step(a)
#與環境互動,獲得下一步的時刻
if done:
break
env.render(
)#繪製場景
count+=
1# time.sleep(0.1) #每次等待0.2s
(count)
#列印該次嘗試的步數
error in
/usr/bin/python3』: malloc(): memory corruption`
問題 在 anaconda spyder 中跑小烏龜畫圖的時候,跑完後圖形介面關不掉
cart-pole 的實現原始碼在哪 ?
requirement for using turtle
熟悉turtle 的小練習
import gym
import turtle
import numpy as np
import time
canvas = turtle.getscreen(
)# generate a canvas
t = turtle.turtle(
)# initialize a turtle (a directed pen)
t.forward(
200)
t.left(90)
t.goto(0,
100)
t.home(
)# t.forward(200)
t.circle(60)
t.dot(20)
turtle.bgcolor(
"grey"
)turtle.title(
"my turtle program"
)input()
# to pause the python script
百度強化學習框架PARL入門強化學習
parl框架github鏈結 parl框架gitee鏈結 走過路過不要錯過歡迎同學們點下star支援一下咱們的自己的框架 監督學習和非監督學習的輸出為 是什麼 是乙個判斷,多用於聚類和回歸問題。比較經典的案例如手寫數字體識別,房價 強化學習的輸出是 決策 通常用於策略類問題,比如阿爾法狗就是典型的強...
2020百度強化學習培訓體會
感謝美麗的科科老師,加班加點地用心備課和深入淺出的講解,讓我這個對強化學習一無所知的門外漢,也有機會登堂入室,一窺強化學習的奧妙與強大。一 相對於保守安全的sarsa演算法 也許是我功夫還不到吧,在cliffwalking遊戲中,雖然agent每次都成功的避開了懸崖旁邊的危險路徑,但經常是執行結果大...
百度7日強化學習總結
基本概念包括 兩部分 agent智慧型體,environment 環境 三要素 state狀態,動作action,reward獎勵。agent學習兩種策略 基於價值的value based 隨機性策略,代表性的有sarsa,q learning,dqn 基於策略的policy based 隨機性策略...