近年來,深度強化學習(drl)受到了大家的廣泛關注,並且在機械人控制、自動駕駛、推薦系統領域等都得到了應用,但drl目前的發展依然受限,本文將從以下幾方面進行分析和解釋。
一、 樣本效率sample efficiency
學習所需樣本太多,目前常用的方法有:
off-policy(experience reply):之前的經驗存下來之後反覆使用;
model-based learning:有利於更有方向性地探索,另一方面利用模型規劃使action質量更高;
piror:從其他地方獲取先驗知識,並加以利用從而更快學習;
faster convergence:使演算法更快收斂。
二、 學習的最終效果不好
最常採用以下方式:
針對特定問題進行特定建模;
提高模型的容量(一些model-based方法)和抽象能力(分層強化學習);
模仿學習(imitation learning),從專家示範入手;
逐步學習(curriculum learning),先學習簡單情形,再學習更複雜的情形
三、 獎勵設定困難
gym對於特定任務已經人為定義了比較合適的獎勵,人為去定義現實生活中的獎勵往往非常困擾,易導致演算法效果非常不好。如果直接將目標定義為獎勵,會導致獎勵非常稀疏(sparse),定義獎勵的最好辦法是一步步引導agent來解決問題,但agent往往是愚蠢而懶惰的,它們經常會想盡辦法利用所定義獎勵中的漏洞來欺騙設計者,所以需要定義的獎勵最好是形態完好且平滑,從而讓agent「安分」完成任務。常用解決方法如下:
先面對困難,再定義更好的方案,如迭代更新的gym任務;
讓它能自己學習到獎勵,如imitation learning、inverse learning;
直接定義內在獎勵,如curiosity、diversity。
四、 缺乏泛化性
即對於特定環境的過擬合,不能泛化。目前的方法:
在更廣問題上學習先驗知識(piror),然後在特定問題上加速學習,如transfer learning、meta learning、few-shot learning;
邏輯推理能力,(目前進展欠缺)。
五、 調參困難
引起困難的主要原因:
隨機性:任務本身的、取樣的等等;
測試一組超引數花費的時間長;
演算法缺乏穩定性。
六、 其他問題
reality gap
multi-agent rl
…
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習系列1 強化學習簡介
2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...