cs229 Lecture17 離散與維數災難

2022-03-31 20:05:57 字數 2222 閱讀 2923

主要內容:

離散化;

模型mdp的同化型; (model/similator)

擬合值迭代演算法;

q函式;

近似政策迭代;

筆記**:

之前我們的狀態都是離散的,如果狀態是連續的,下面將用乙個例子來予以說明,這個例子就是inverted pendulum問題

也就是乙個鐵軌小車上有乙個長桿,要用計算機來讓它保持平衡(其實就是我們平時玩桿子,放在手上讓它一直保持豎直狀態)

這個問題需要的狀態有:都是real的值

x(在鐵軌上的位置)

theta(杆的角度)

x』(鐵軌上的速度)

thata'(角速度)

也就是把連續的值分成多個區間,這是很自然的乙個想法,比如乙個二維的連續區間可以分成如下的離散值:

但是這樣做的效果並不好,因為用乙個離散的去表示連續空間畢竟是有限的離散值。

離散值不好的另乙個原因是因為curse of dimension(維度詛咒),因為連續值離散值後會有多個離散值,這樣如果維度很大就會造成有非常多狀態

從而使需要更多計算,這是隨著dimension以指數增長的

這樣我們就把狀態變成連續的了,但是如何得到這樣乙個simulator呢?

①:根據客觀事實

比如說上面的inverted pendulum問題,action就是作用在小車上的水平力,根據物理上的知識,完全可以解出這個加速度對狀態的影響

也就是算出該力對於小車的水平加速度和杆的角加速度,再去乙個比較小的時間間隔,就可以得到s(t+1)了

②:學習乙個simulator

這個部分,首先你可以自己嘗試控制小車,得到一系列的資料,假設力是線性的或者非線性的,將s(t+1)看作關於s(t)和a(t)的乙個函式

得到這些資料之後,你可以通過乙個supervised learning來得到這個函式,其實就是得到了simulator了。

比如我們假設這是乙個線性的函式:

在inverted pendulum問題中,a就是乙個4*4的矩陣,b就是乙個4維向量,再加上一點噪音,就變成了:其中噪音服從

我們的任務就是要學習到a和b

(這裡只是假設線性的,更具體的,如果我們假設是非線性的,比如說加乙個feature是速度和角速度的乘積,或者平方,或者其他,上式還可以寫作:)

這樣就是非線性的了,我們的任務就是得到a和b,用乙個supervised learning分別擬合每個引數就可以了

這裡介紹了乙個fitted value(q) iteration的演算法

在之前我們的value iteration演算法中,我們有:

這裡使用了期望的定義而轉化。fitted value(q) iteration演算法的主要思想就是用乙個引數去逼近右邊的這個式子

也就是說:令

其中是一些基於s的引數,我們需要去得到係數

的值,先給出演算法步驟再一步步解釋吧:

演算法步驟其實很簡單,最主要的其實就是他的思想:

在對於action的那個迴圈裡,我們嘗試得到這個action所對應的

,記作q(a)

這裡的q(a)都是對應第i個樣例的情況

然後i=1……m的那個迴圈是得到是最優的action對應的value值,記作y(i),然後用y(i)拿去做supervised learning,大概就是這樣乙個思路

至於reward函式就比較簡單了,比如說在inverted pendulum問題中,桿子比較直立就是給高reward,這個可以很直觀地從狀態得到衡量獎勵的方法

在有了之上的東西之後,我們就可以去算我們的policy了:

上面講的連續狀態的演算法其實是針對乙個非確定性的模型,即乙個動作可能到達多個狀態,有p在影響到達哪個狀態

如果在乙個確定性模型中,其實是乙個簡化的問題,得到的樣例簡化了,計算也簡化了

也就是說乙個對於乙個狀態和乙個動作,只能到達另乙個狀態,而不是多個。

cs229 Lecture10 特徵選擇

本節課要點 特徵選擇 vc維 個人還是不太理解。個人的感覺就是為核函式做理論依據,低維線性不可分時,對映到高維就可分,那麼對映到多高呢?我把可分理解為 打散 參考的資料 前面的講解很不錯 模型選擇 選擇過於簡單的模型,可能會導致欠擬合 選擇過於複雜的模型,可能會導致過擬合。那麼問題來了?如何選擇適合...

cs229 Lecture16 馬爾可夫決策過程

之前講了監督學習和無監督學習,今天主要講 強化學習 什麼是強化學習?強化學習 reinforcement learning,又稱再勵學習,評價學習 是一種重要的機器學習方法,在智慧型控制機械人及分析 等領域有許多應用。但在傳統的機器學習分類中沒有提到過強化學習,而在連線主義學習中,把學習演算法分為三...

cs229 Lecture9 經驗風險最小化

寫在前面 機器學習的目標是從訓練集中得到乙個模型,使之能對測試集進行分類,這裡,訓練集和測試集都是分布d的樣本。而我們會設定乙個訓練誤差來表示測試集的擬合程度 訓練誤差 雖然訓練誤差具有一定的參考價值。但實際上,我們並不關心對訓練集合的 有多麼準確。我們更關心的是對於我們之前沒有見過的乙個全新的測試...