強化學習概念理解

2021-09-12 21:29:49 字數 1882 閱讀 4012

一、基本理解

強化學習與其他機器學習不同之處為:

◼ 沒有教師訊號,也沒有label,只有reward。

◼ 反饋有延時,不是能立即返回。

◼ 資料是序列化的,資料與資料之間是有關的,而不是i.i.d的;

◼ agent執行的動作會影響之後的資料。

四、強化學習的關鍵要素

 強化學習的關鍵要素有:environment, reward,action 和 state。有了這些要素我們 就能建立乙個強化學習模型。

 強化學習解決的問題是,針對乙個具體問題 得到乙個最優的policy(策略),使得在該 策略下獲得的return(長期回報)最大。

 所謂的policy其實就是一系列action,也就是 sequential data。

四、強化學習的模型:

agent與環境的互動介面包括行動(action)、即 時獎勵(reward)和狀態(state)。

五、獎勵與動作

 reward

◼ reward通常都被記作rt,表示第t個time step的返回獎勵值。所有強化學習都是基於reward假設的。

◼ reward是乙個標量。

◼ 注意:回報(return)是獎勵(reward)的累積。

 action

◼ action是來自於動作空間,agent對每次所處的 state用以及上一狀態的reward確定當前要執行什 麼action。

◼ 執行action要達到最大化期望reward,直到最終 演算法收斂,所得的policy就是一系列action的 sequential data。

六、狀態與策略

 state

◼ 就是指當前agent所處的狀態。

 policy

◼ policy就是指agent在特定狀態下的行為依據,是從state到action的對映。

◼ 分為確定策略和與隨機策略。

◼ 確定策略:就是某一狀態下的確定動作a=π(s)

◼ 隨機策略:以概率來描述,即某一狀態下執行 這一動作的概率:π(a|s)=p[at=a | st=s]。

策略有兩種

 把用來指導個體產生與環境進行實際互動行 為的策略稱為:行為策略;

◼ 實際取樣的策略

 把用來評價狀態或行為價值的策略(或者待優化的策略)稱為:目標策略

強化學習的學習過程

 rl採用的是邊獲得樣例邊學習的方式

◼ 在獲得樣例之後更新自己的模型,

◼ 利用當前的模型來指導下一步的行動,

◼ 下一步的行動獲得reward之後再更新模型, ◼ 不斷迭代重複直到模型收斂。

 在這個過程中,非常重要的一點在於「在已 有當前模型的情況下,如果選擇下一步的行 動才對完善當前的模型最有利」。

強化學習概念介紹

是智慧型體 agent 以試錯的方式進行學習,通過與環境進行互動獲得獎勵指導行為,目標是尋找乙個最優策略,使智慧型體獲得最大的獎勵。注意,agent的動作的影響不止立即獲取得到的獎勵,而且還影響接下來的動作和最終的獎勵 envirnment reward,action,state,policy 確定...

嘗試理解強化學習

強化學習就是評價學習,這個和深度學習有啥區別?我個人理解就是深度學習需要對乙個一組特徵設定標籤,然後反覆訓練模型,是這個模型盡量接近 一坨特徵資料等於標籤。而強化學習是對一坨特徵,模型剛開始不知道標籤是具體是啥,隨便輸出乙個值y就行,然後我們實現乙個獎勵函式,對這個輸出值打乙個分,分數越高,說明這個...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...