機器學習概念 強化學習演算法 筆記

2021-10-21 10:14:37 字數 2327 閱讀 3421

強化學習演算法的分類

強化學習演算法

神經網路概念

其他監督學習 (supervised learning)

非監督學習 (unsupervised learning)

半監督學習 (semi-supervised learning)

強化學習 (reinforcement learning)

遺傳演算法 (genetic algorithm)

q-learning(單步更新的)

epsilon 貪婪策略(在剛開始訓練 q 函式時,我們必須有乙個大的 epsilon。隨著智慧型體對估算出的 q 值更有把握,我們將逐漸減小 epsilon。)

q-table(行為狀態,列為動作的**,**中表現為陣列的形式;可以根據之前每個狀態上的每乙個動作,來計算未來最大獎勵期望)

· q-learning 是乙個基於值的強化學習演算法,利用 q 函式尋找最優的「動作—選擇」策略。

· 它根據動作值函式評估應該選擇哪個動作,這個函式決定了處於某乙個特定狀態以及在該狀態下採取特定動作的獎勵期望值。

· 目的:最大化 q 函式的值(給定乙個狀態和動作時的未來獎勵期望)。

· q-table 幫助我們找到對於每個狀態來說的最佳動作。

· 通過選擇所有可能的動作中最佳的乙個來最大化期望獎勵。

· q 作為某一特定狀態下採取某一特定動作的質量的度量。

· 函式 q(state,action)→返回在當前狀態下採取該動作的未來獎勵期望。

· 這個函式可以通過 q-learning 演算法來估計,使用 bellman 方程迭代地更新 q(s,a)

· 在我們探索環境之前:q-table 給出相同的任意的設定值→ 但是隨著對環境的持續探索→ q 給出越來越好的近似。

dqn(deep q-network)

dqn:融合了神經網路和q-learning的方法,即在q-learning的基礎上加入了神經網路。通過神經網路生成q值(替代了q-learning用**記錄q值),可以輸入狀態值,輸出所有的動作值,然後按照q-learning的原則,直接選擇擁有最大值的動作當做下一步要做的動作。

policy gradients(策略梯度、回合更新的)

actor-critic(演員評判家)

actor critic 方法的優勢: 可以進行單步更新, 比傳統的 policy gradient 要快.

actor critic 方法的劣勢: 取決於 critic 的價值判斷, 但是 critic 難收斂, 再加上 actor 的更新, 就更難收斂. 為了解決收斂問題, google deep mind 提出了actor critic 公升級版 deep deterministic policy gradient. 後者融合了 dqn 的優勢, 解決了收斂難的問題。

paddle寫神經網路**(參考流程)

時序差分 temporal difference (td單步更新)

馬爾科夫決策過程(mdp,markov decision process)

parl**參考

機器學習 強化學習

在環境中狀態的轉移 獎賞的返回是不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移後的狀態和返回的獎賞來感知環境。離散狀態空間 離散動作空間 第 k 個搖臂第 n次嘗試之後平均獎賞 q0 k 0 qn k 1n n 1 qn 1 k vn qn k q n 1 k 1 n v...

機器學習 強化學習

目的 使乙個3關節 髖骨 膝蓋 腳踝 小人學會沿直線走路。方法 1 對於小人建模 2 使用3層人工神經網路訓練小人走路 3 對於每次訓練結果評估,獎懲神經網路調整權重。演示了乙個使用深度強化學習 deep deterministicpolicy gradient,ddpg 演算法控制仿人機械人運動的...

機器學習 強化學習

1 強化學習概述 機器學習方法 有監督學習 資料集中的樣本帶有標籤,有明確目標 回歸和分類 無監督學習 資料集中的樣本沒有標籤,沒有明確目標 聚類 降維 排序 密度估計 關聯規則挖掘 強化學習 智慧型決策的過程,通過過程模擬和觀察來不斷學習 提高決策能力,最接近人類學習模式的機器學習方法 例如 al...