一、前述
本文通過乙個案例來講解q-learning
二、具體
1、案例
假設我們需要走到5房間。
轉變為如下圖:先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設定成100,沒有達到5說明獎勵比較低,設定成0。
q-learning實現步驟:
2、案例詳解:
第一步的q(1,5):最開始的q矩陣都是零矩陣,迭代完之後q(1,5)是100
第二次迭代:依舊是隨機
收斂的意思是最後q基本不變了,然後歸一化操作,所有值都除以500,然後計算百分比。
則最後的分值填充如下:
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習 1 1 0 強化學習介紹
abstract 本文介紹reinforcement learning的具體特點和與其他機器學習演算法不同之處,本文是乙個骨架性的文章,所有專有名詞都保持英文原始單詞,具體內容會在後續中給出詳細解答。keywords reinforcement learning,situation,action,e...
強化學習 Pytorch篇
首先祭出強化學習中的基礎方法q learning,演算法流程如下圖所示 q learning是乙個不斷摸索,最終找到最優的方法。個人理解是這樣的 首先q表是乙個初值都為0 的表,被學習體只能隨意摸索。當得到reward之後,乘以學習率 alpha 更新q表。這樣,在下一次走到這一步的時候,就能夠根據...