關於強化學習的一些思考

2021-08-01 16:25:29 字數 513 閱讀 2198

問1:增強學習的要素是什麼?

答1:1)有限狀態集合s

2)有限動作集合a

3)轉移模型t,t(s,a,s')=p(s'|s,a) 狀態s採取動作a後,狀態轉移到s'的概率

4)即時獎勵r,r(s,a)=e[rt+1|s,a]

問2:增強學習的最終結果是什麼?

答2:1)最優的policy π

2)確定型策略:a=π(s) 狀態s下採取確定動作a

3)不確定型策略:π(a|s)=p(a|s) 狀態s下採取確定動作a的概率

問3:q-learning是如何進行訓練的?

答3:1)選取初始狀態

2)隨機選擇乙個動作,更新q。q(s,a)=r(s')+γ*(max(q(s',a'))) 其中s'為狀態s執行動作a後到達的新狀態,a'為在s'可執行的動作

3)更新最新狀態,重複2,直到最終狀態

4)重複上述3步n次,直到q穩定

問4:q-learning如何使用?

答4:選取當前狀態下收益最大的動作

強化學習篇 強化學習案例詳解一

一 前述 本文通過乙個案例來講解q learning 二 具體 1 案例 假設我們需要走到5房間。轉變為如下圖 先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設定成100,沒有達到5說明獎勵比較低,設定成0。q learning實現步驟 2 案例詳解 第一步的q 1,5 最開始的q矩...

關於英語學習的一些思考

怎麼樣,聽完有木有一種想把新概念背上100遍的衝動?至少我是有的。簡單的總結一下強浩老師所講的內容 一 英語學習弊端 貪多,對英語的學習只是走馬觀花,蜻蜓點水,淺嘗輒止。就圖乙個新鮮感,而不是深入 反覆地去學習同乙個資料。就那我們現在來說,新舊走遍美國 小烏龜 900句 365等等,各種英語學習資料...

關於深度學習的一些思考

問1 有監督學習中,機器學習是什麼?答1 機器學習就是先假設乙個函式,使用訓練樣本來選取最優的引數 當有新樣本時,把特徵輸入已訓練好的函式中,得到 值。問2 神經網路中,神經元的作用是什麼?答2 1 對輸入特徵進行線性加權 z w1 a1 w2 a2 w3 a3 b,其中wi是權重,ai是特徵值,b...