q learning 學習總結

2021-09-02 11:48:01 字數 810 閱讀 1170

總結q-learning ,學習的位址

q-learning 是一種行為計算的方法。

首先,所有的行為和這行為的後果已經確定下來,向一般在網上舉的例子會用簡單的迷宮做過程的講解,現實中比較合適的例子是下棋,因為下棋的步驟行為比較多。

方法是運用兩個矩陣做計算:

第乙個是獎勵矩陣r,這個狀態矩陣y軸代表當前位置(也稱為state),x軸代表下乙個位置(也稱為action),矩陣的記錄資料為獎勵值,即距離達目的的資料表示值(也稱為reward)。

第二個是經驗矩陣q,舉證的維度和獎勵矩陣r一樣。矩陣的每一位代表從x軸到y軸對應位置這個行為能實現可以最後到達目的地的經驗值。經驗值是計算得到的,矩陣的初始值是0。

迭代計算後的矩陣為

最後的結果就是得到這個經驗矩陣,然後對應從x軸到y軸的取最大經驗值的路徑走。計算的思路就是不管在哪個初始位置上,取當前一步的最大獎勵加上已有第一步位置的下一步最大經驗值,就好像我們在下棋的時候要多想幾步一樣,然後加的時候打個折扣。

也有用複雜一點的,就是將當前地經驗值按比例加上:

強化學習之Q learning

三要素 狀態 state 動作 action 獎賞 reward 更具具體情況自行進行給定。q更新公式 q是什麼?動作效用函式 action utility function 用於評價在某一狀態下採取某個動作的優劣。如果q訓練好了,之後 時就可以按照q進行選擇動作。詳解q更新函式 是學習速率 是折扣...

強化學習演算法 Q learning

q learning 演算法的步驟 1 給定引數lamda和獎勵矩陣r 2 令q為0 3 for each episode 3.1 隨機選擇初始的狀態s 3.2 未達到目標狀態,則執行以下幾步 1 在當前狀態s的所有可能行為中選取乙個行為a 2 按照q s,a r s,a lamda max,其中s...

強化學習 Q learning演算法

我們以乙個迷宮尋寶的遊戲為例來看什麼是 q learning。在這個遊戲中,agent 從乙個給定的位置開始,即起始狀態。在不穿越迷宮牆壁的前提下,在每個狀態時,都可以選擇上下左右四個方向走一步,或者原地不動,上下左右這四個動作的每乙個都會將 agent 帶到網格的乙個新的單元格,即新的狀態,在迷宮...