強化學習中,agent的每個action, 只能收到乙個間接的反饋(進入到的狀態,n步之後可能才有正/負reward);
a.強化學習的核心任務:學習乙個從狀態空間s到動作空間a的對映,最大化累積收益。
價值迭代:每輪更新所有狀態的狀態價值函式和動作價值函式的值,等於是策略得到了更新;
策略迭代:每輪內部,所有狀態使用一開始的策略,只更新狀態價值函式,直至收斂,該輪結束再更新動作價值函式和策略;
b. 深度q-learning
走步時,用
連續4幀的影象堆疊,作state;
用mse做損失函式,執行梯度下降更新q網路;
先探索很多幀之後,再開始從庫里抽樣進行訓練,當前走的幀和該步抽樣訓練的樣本無關係;
c. 策略梯度
d. 探索與利用
應該把重心放到試吃次數少的菜上
ML讀書筆記(整合學習)
a.boosting 級聯順序訓練,不能model並行 只能每個弱分類器內部data並行 樣本有權重 弱分類器有權重 bagging 可並行訓練 偏差 由於分類器的表達能力有限導致的系統性錯誤,表現在訓練誤差不收斂 例如假設錯誤,比如資料本來符合二次函式,而建模用了一次函式 在訓練集上即可體現出來 ...
強化學習筆記
1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...
強化學習筆記
policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...