關於強化學習的一些思考

問1：增強學習的要素是什麼？

答1：1)有限狀態集合s

2)有限動作集合a

3)轉移模型t,t(s,a,s')=p(s'|s,a) 狀態s採取動作a後，狀態轉移到s'的概率

4)即時獎勵r,r(s,a)=e[rt+1|s,a]

問2：增強學習的最終結果是什麼？

答2：1)最優的policy π

2)確定型策略：a=π(s) 狀態s下採取確定動作a

3)不確定型策略：π(a|s)=p(a|s) 狀態s下採取確定動作a的概率

問3：q-learning是如何進行訓練的？

答3：1)選取初始狀態

2)隨機選擇乙個動作，更新q。q(s,a)=r(s')+γ*(max(q(s',a'))) 其中s'為狀態s執行動作a後到達的新狀態,a'為在s'可執行的動作

3)更新最新狀態，重複2，直到最終狀態

4)重複上述3步n次，直到q穩定

問4：q-learning如何使用？

答4：選取當前狀態下收益最大的動作

強化學習篇強化學習案例詳解一

一前述本文通過乙個案例來講解q learning 二具體 1 案例假設我們需要走到5房間。轉變為如下圖先構造獎勵，達到5，即能夠走得5的action則說明獎勵比較高設定成100，沒有達到5說明獎勵比較低，設定成0。q learning實現步驟 2 案例詳解第一步的q 1,5 最開始的q矩...

關於英語學習的一些思考

怎麼樣，聽完有木有一種想把新概念背上100遍的衝動？至少我是有的。簡單的總結一下強浩老師所講的內容一英語學習弊端貪多，對英語的學習只是走馬觀花，蜻蜓點水，淺嘗輒止。就圖乙個新鮮感，而不是深入反覆地去學習同乙個資料。就那我們現在來說，新舊走遍美國小烏龜 900句 365等等，各種英語學習資料...

關於深度學習的一些思考

問1 有監督學習中，機器學習是什麼？答1 機器學習就是先假設乙個函式，使用訓練樣本來選取最優的引數當有新樣本時，把特徵輸入已訓練好的函式中，得到值。問2 神經網路中，神經元的作用是什麼？答2 1 對輸入特徵進行線性加權 z w1 a1 w2 a2 w3 a3 b，其中wi是權重，ai是特徵值，b...

關於強化學習的一些思考

強化學習篇 強化學習案例詳解一

關於英語學習的一些思考

關於深度學習的一些思考

相關推薦

強化學習篇強化學習案例詳解一