機器學習 強化學習

2022-06-12 04:18:07 字數 1573 閱讀 4143

1

、強化學習概述

機器學習方法

有監督學習

資料集中的樣本帶有標籤,有明確目標

回歸和分類

無監督學習

資料集中的樣本沒有標籤,沒有明確目標

聚類、降維、排序、密度估計、關聯規則挖掘

強化學習

智慧型決策的過程,通過過程模擬和觀察來不斷學習、提高決策能力,最接近人類學習模式的機器學習方法

例如:alphago

基本概念

agent:智慧型體(學習的物件)

environment:環境(和agent不斷互動)

state:狀態(environment對agent的反饋)

action:行動(根據state採取最佳的action)

reward:獎勵

策略:在特定狀態下應該怎麼採取行動

目標:找到最佳策略,即能夠獲得最大獎勵的策略

2、數學模型:馬爾科夫決策過程(mdp)

強化學習方法形式化為mdp,mdp是序列決策演算法的一般數學框架

通常將mdp表示為四元組(s,a,p,r)

s:表示狀態空間,是描述環境的狀態

a:表示行動空間,是智慧型體可執行的行動

p:表示狀態轉移概率,狀態s轉換到狀態s

'的概率

r:表示獎勵,是環境根據智慧型體的動作反饋的獎勵

策略與目標

策略:在馬爾科夫決策過程中,最終需要求解乙個策略,它是行動和狀態之間的對映

確定性策略:必須要有乙個策略

隨機性策略:

目標:最大化累積獎勵的期望,t時刻累積獎勵的期望

為保證目標瘦臉,引入折扣因子γ,γ∈(

0,1),最大化累積折扣獎勵的期望

強化學習的方法分類

有模型(model-based):已知或者學習狀態轉移概率

無模型(model-free):探索環境而不直接學習

基於價值的方法:智慧型體每一步更新乙個將狀態和價值對映到乙個取值函式、q-learning、dqn

基於策略的方法:直接優化策略函式,通過策略梯度來實現

3、q-learning

q表建立乙個**用來儲存狀態和行動對應的q值即q(s,a)

根據π(s)找出最佳策略

q-learning

狀態s出發,根據策略π選擇行動a,狀態轉換至s

',得到獎勵ra(s,s')

在狀態s

'下,直接利用現有的q表,選擇最大的q(s

',a'

)所對應的行動a

'作為下一步的行動

4、deep q network

在q-learning中,當狀態和行動空間是離散且維度不高時i,用q-table儲存每個狀態行動對的q值,可以實現行動決策。而當狀態和行動空間是高維連續時,使用q-table不現實。

在q-learning中引入引數學習

q表本質上是一種對映,把狀態對映為行動

這種對映可以寫成函式q(s,a;γ),γ為函式的引數

強化學習的過程等價於q(s,a;γ)函式擬合

核心創新:經驗**和目標網路

基於策略的方法

典型代表是策略梯度演算法

機器學習 強化學習

在環境中狀態的轉移 獎賞的返回是不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移後的狀態和返回的獎賞來感知環境。離散狀態空間 離散動作空間 第 k 個搖臂第 n次嘗試之後平均獎賞 q0 k 0 qn k 1n n 1 qn 1 k vn qn k q n 1 k 1 n v...

機器學習 強化學習

目的 使乙個3關節 髖骨 膝蓋 腳踝 小人學會沿直線走路。方法 1 對於小人建模 2 使用3層人工神經網路訓練小人走路 3 對於每次訓練結果評估,獎懲神經網路調整權重。演示了乙個使用深度強化學習 deep deterministicpolicy gradient,ddpg 演算法控制仿人機械人運動的...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...