強化學習 參考於李巨集毅教授課程以及莫煩教程

2021-10-07 17:56:10 字數 387 閱讀 6918

寫在前面:小白剛開始學習機器學習相關的的知識。參考了李巨集毅教授的課程以及莫煩課程,磕磕絆絆,但有所收穫。不斷更新總結,若有錯誤之處。希望大家多指教。數學推導就不詳寫。

actor 智慧型體

state 狀態(observation) **於環境 不可控

action 動作 不可控

reward 獎勵

讓actor不斷嘗試

讓total reward值最大

策略是乙個可輸出函式

在策略π 下狀態 s 的值,表示為 vπ(s),是預期收益 動作價值函式 qπ(s,a)

policy gradients 在強化學習應用時會直接輸出**的動作

使用policy gradients的優勢,輸出的action可以是乙個連續的值

李巨集毅機器學習 Introduction

人工智慧是我們想要達到的目標,即讓機器和人一樣智慧型。而機器學習是方法,讓機器從資料中學習,從而得到智慧型的方法。智慧型是什麼呢?對於人類智慧型而言,根據霍華德 加德納的多元智慧型理論,人類的智慧型分為以下七種智慧型 這不僅涵蓋了現在人工智慧的研究領域,計算機視覺 語音識別 自然語言處理等。而且也指...

李弘毅的強化學習

1 policy gradient review 三個元件 actor enviroment reward enviromwnt和reward開始之前就已經存在,能調整的就是actor的策略,如何是actor的策略可以得到最大的reward.2 policy of actor policy 是帶有引...

李巨集毅機器學習attack model 學習筆記

loss函式及限制條件 無目標攻擊 l 負的 y 與y true 交叉熵 輸入的x 使y 與y true越遠越好 有目標攻擊 輸入的x 使y 與y true越遠越好且y 與y false越近越好 限制條件 x與x0距離需要小於乙個值,不被發現,否則攻擊就無意義 攻擊的目標是x在乙個小的變化內使模型失...