問1:增強學習的要素是什麼?
答1:1)有限狀態集合s
2)有限動作集合a
3)轉移模型t,t(s,a,s')=p(s'|s,a) 狀態s採取動作a後,狀態轉移到s'的概率
4)即時獎勵r,r(s,a)=e[rt+1|s,a]
問2:增強學習的最終結果是什麼?
答2:1)最優的policy π
2)確定型策略:a=π(s) 狀態s下採取確定動作a
3)不確定型策略:π(a|s)=p(a|s) 狀態s下採取確定動作a的概率
問3:q-learning是如何進行訓練的?
答3:1)選取初始狀態
2)隨機選擇乙個動作,更新q。q(s,a)=r(s')+γ*(max(q(s',a'))) 其中s'為狀態s執行動作a後到達的新狀態,a'為在s'可執行的動作
3)更新最新狀態,重複2,直到最終狀態
4)重複上述3步n次,直到q穩定
問4:q-learning如何使用?
答4:選取當前狀態下收益最大的動作
強化學習篇 強化學習案例詳解一
一 前述 本文通過乙個案例來講解q learning 二 具體 1 案例 假設我們需要走到5房間。轉變為如下圖 先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設定成100,沒有達到5說明獎勵比較低,設定成0。q learning實現步驟 2 案例詳解 第一步的q 1,5 最開始的q矩...
關於英語學習的一些思考
怎麼樣,聽完有木有一種想把新概念背上100遍的衝動?至少我是有的。簡單的總結一下強浩老師所講的內容 一 英語學習弊端 貪多,對英語的學習只是走馬觀花,蜻蜓點水,淺嘗輒止。就圖乙個新鮮感,而不是深入 反覆地去學習同乙個資料。就那我們現在來說,新舊走遍美國 小烏龜 900句 365等等,各種英語學習資料...
關於深度學習的一些思考
問1 有監督學習中,機器學習是什麼?答1 機器學習就是先假設乙個函式,使用訓練樣本來選取最優的引數 當有新樣本時,把特徵輸入已訓練好的函式中,得到 值。問2 神經網路中,神經元的作用是什麼?答2 1 對輸入特徵進行線性加權 z w1 a1 w2 a2 w3 a3 b,其中wi是權重,ai是特徵值,b...