ML讀書筆記(強化學習)

2021-09-29 02:10:34 字數 455 閱讀 3904

強化學習中,agent的每個action, 只能收到乙個間接的反饋(進入到的狀態,n步之後可能才有正/負reward);

a.強化學習的核心任務:學習乙個從狀態空間s到動作空間a的對映,最大化累積收益

價值迭代:每輪更新所有狀態的狀態價值函式和動作價值函式的值,等於是策略得到了更新;

策略迭代:每輪內部,所有狀態使用一開始的策略,只更新狀態價值函式,直至收斂,該輪結束再更新動作價值函式和策略;

b. 深度q-learning

走步時,用

連續4幀的影象堆疊,作state;

用mse做損失函式,執行梯度下降更新q網路;

先探索很多幀之後,再開始從庫里抽樣進行訓練,當前走的幀和該步抽樣訓練的樣本無關係;

c. 策略梯度

d. 探索與利用

應該把重心放到試吃次數少的菜上

ML讀書筆記(整合學習)

a.boosting 級聯順序訓練,不能model並行 只能每個弱分類器內部data並行 樣本有權重 弱分類器有權重 bagging 可並行訓練 偏差 由於分類器的表達能力有限導致的系統性錯誤,表現在訓練誤差不收斂 例如假設錯誤,比如資料本來符合二次函式,而建模用了一次函式 在訓練集上即可體現出來 ...

強化學習筆記

1.q learning與sarsa區別 lambda 就是乙個衰變值,他可以讓你知道離獎勵越遠的步可能並不是讓你最快拿到獎勵的步,所以我們想象我們站在寶藏的位置,回頭看看我們走過的尋寶之路,離寶藏越近的腳印越看得清,遠處的腳印太渺小,我們都很難看清,那我們就索性記下離寶藏越近的腳印越重要,越需要被...

強化學習筆記

policy iteration 隨機選擇乙個策略,交替做兩件事 策略評價,和策略改進,則可以得到最優的策略。其中,策略評價即policy evalution,為當前策略計算值函式v 策略改進即policy improvement,即給定乙個值函式,得到乙個改進的策略。value iteration...