[課程位址]
第十七講,離散與維數災難
主要內容
值得注意的地方
1.未知的psa
p_ps
a和r rr
即便我們能夠通過值迭代或策略迭代來解決mdp問題,但對於一些實際問題,我們不知道p
pp和r
rr的具體值,這時我們可以通過取樣,在尋找策略的過程中同時模擬出真實的模型
第十八講,線性二次型調節控制筆記
值得注意的地方
1.有限邊界mdp為什麼沒有γ
\gamma
γ 有限邊界mdp和γ
\gamma
γ的意義都在於讓mdp過程是有限的,所以兩者往往不同時使用
2.對物理模型的模擬
可以通過我們關注的點的的一階泰勒展式來對物理模型進行線性估計。
**在這
####實驗題目:走迷宮
####實驗目的:學習策略迭代,值迭代演算法以及就地值迭代演算法
####實驗過程:
#####1.描述
在乙個5*5的迷宮中,有兩個特殊的格點,分別是a(1,2)和b(1,4),當走到a點時,會自動移動到a』(5,2),並獲得+10獎勵,當走到b點時,會自動移動到b』(3,4),並獲得+5獎勵,任何試圖走出邊界的行為會得到-1的獎勵,其他情況均獲得0獎勵,γ
\gamma
γ=0.9
#####2.分別使用策略迭代,值迭代和就地值迭代演算法
####實驗結果:
從圖中可見,值迭代演算法的收斂速度》就地值迭代演算法》策略迭代演算法
完成cs229的學習,並做好總結
第六周 學習筆記
一 位運算 位運算子 1 位邏輯符 2 移位運算子 2.位邏輯運算 二進位制位的運算,按位運算 位與運算 全1為 1位異或運算 不相等為 1,相等為 0位或運算 有1為 1位取反運算 位邏輯運算與邏輯運算的區別 邏輯運算的結果只有0和 13.移位運算 1 2 左移兩位 1 2 右移兩位 考慮正負號 ...
C 第六周學習筆記
1.實參的資料型別必須與 形參的相同 形參和實參的區別 形參出現在函式定義中,在整個函式體內都可以使用,離開該函式則不能使用。實參出現在主調函式中,進入被調函式後,實參變數也不能使用。形參和實參的功能是作資料傳送。發生函式呼叫時,主調函式把實參的值傳送給被調函式的形參從而實現主調函式向被調函式的資料...
Boolan C 第六周學習筆記
談談stl容器vector vector作為一種連續性容器,是指它在記憶體的表現上,邏輯上相鄰的資料,在記憶體中也是連續的。這就保證它在訪問每個元素的操作時可以在固定的指令上通過偏移的方式去訪問,相比一般的陣列,它還有乙個明顯的特點就是大小可變。vector的空間是動態分配的,由於大小可變,一旦遇到...