近期在忙乙個比較重要的專案, 做到機械人快速避障,正在努力學習和更新中.深度強化學習(deep reinforcement learning)強化學習是機器學習的乙個分支, 相較於機器學習經典的有監督學習, 無監督學習問題, 強化學習的最大的特點是在互動中學習(learning from interaction).
agent在與環境的互動中根據獲得獎勵或懲罰不斷的學習知識, 更加適應環境.
rl學習的正規化非常類似於我們人類學習知識的過程, 也正因此, rl被視為實現通用ai重要途徑.
"名詞解釋"
獎勵: 單次執行行為的好壞評價標量;
價值函式: 評價一段時間內行為"好壞", 用來**未來積累的獎勵**;
環境(model): 用來模擬環境的行為;
智慧型體(agent):
"智慧型體分類1"
基於模型的強化學習.
模型無關的強化學習.
"智慧型體分類2"
基於價值函式, 無策略
基於策略函式, 無價值
基於actor-critic(策略+價值函式).
[2] a2c / a3c (asynchronous advantage actor-critic): mnih et al, 2016" 概念掃盲和知識點梳理"
"1. 基本概念"
強化學習:通過從互動中學習來實現目標的計算方法。
互動過程:在每一步t,智慧型體:獲得觀察o_t,獲得獎勵r_t,執行行動a_t,環境:獲得行動a_t,給出觀察o_,給出獎勵r_
歷史(history): 是觀察、獎勵、行動的序列,即一直到時間t為止的所有可觀測變數。
狀態(state): 是一種用於確定接下來會發生的事情(a,r,o),狀態是關於歷史的函式。
狀態通常是整個環境的, 觀察可以理解為是狀態的一部分,僅僅是agent可以觀察到的那一部分。
策略(policy): 是學習智慧型體在特定時間的行為方式。是從狀態到行為的對映。
確定性策略: 函式表示,隨機策略:條件概率表示
獎勵(reward): 立即感知到什麼是好的,一般情況下就是乙個標量
價值函式(value function): 長期而言什麼是好的
價值函式是對於未來累計獎勵的**,用於評估給定策略下,狀態的好壞
"2. 強化學習智慧型體的分類"
model-based rl:模型可以被環境所知道,agent可以直接利用模型執行下一步的動作,而無需與實際環境進行互動學習。
比如:圍棋、迷宮
model_free rl:真正意義上的強化學習,環境是黑箱
比如atari遊戲,需要大量的取樣
基於價值:沒有策略(隱含)、價值函式
基於策略:策略、沒有價值函式
actor-critic:策略、價值函式
[3] ppo (proximal policy optimization): schulman et al, 2017
[4] trpo (trust region policy optimization): schulman et al, 2015
[5] ddpg ddpg (deep deterministic policy gradient): lillicrap et al, 2015
[6] td3 (twin delayed ddpg): fujimoto et al, 2018
[7] sac (soft actor-critic): haarnoja et al, 2018
[8] dqn (deep q-networks): mnih et al, 2013
[9] c51 (categorical 51-atom dqn): bellemare et al, 2017
[10] qr-dqn (quantile regression dqn): dabney et al, 2017
[11] her (hindsight experience replay): andrychowicz et al, 2017
[12] world models : ha and schmidhuber, 2018
[13] i2a (imagination-augmented agents): weber et al, 2017
[14] mbmf (model-based rl with model-free fine-tuning): nagabandi et al, 2017
[15] mbve (model-based value expansion): feinberg et al, 2018
[16] alphazero alphazero: silver et al, 2017
機器學習第一課
過擬合就是,通過訓練集進行訓練的時候,模型學習了太多的背景雜訊,讓模型的複雜度高於了真實模型 比如看到齒距型的葉子,就覺得不是葉子 欠擬合是指,模型在訓練集上進行學習的時候,效果就不是很好,沒有充分學習到其中的資訊量,複雜度低於真實模型,得到的模型泛化能力差 比如看到綠色,就覺得是葉子 模型評估指標...
python學習第一課
1.單行注釋 2.或 多行注釋運算子的型別運算子的優先順序運算子tips 參考變數型別 算術運算子 print 1 1 2,加 print 2 1 1,減 print 3 4 12,乘 print 3 4 0.75,除 print 3 4 0,整除 地板除 print 3 4 3,取餘 print ...
學習Appium第一課
腦子不用確實是會生鏽的,三年沒有去學習。我差點忘了自己曾經是計算機專業畢業的,配置個chromedrive花了半天,細思極恐。說說自己入的坑吧。簡單到不能簡單的步驟。2 將該路徑新增到系統環境變數path下 認識到這個問題後重新安裝了32位瀏覽器,沒有重啟 ps 可能出現下圖兩種問題,這是chrom...