本章節以多臂賭博機為模型,介紹了若干個在簡化環境下的強化學習演算法(動作不會影響下一時刻的情景和收益)
1、貪心演算法,每次選擇期望收益最大的動作
2、ξ-貪心,在貪心演算法的基礎上,有ξ的概率從所有的動作中等概率選擇乙個。ξ如果比較大可以更快的找到收益最大的動作,但是會影響選擇選擇收益最大動作的概率(ξ=0.1時,選擇收益最大動作的概率收斂到91%)
3、增量式實現,用常數級的記憶體消耗和運算時間得到平均值,將平均值的式子變形一下即可:q(n+1) = q(n) + 1/n(r(n) - q(n))
4、非平穩問題,每個動作的收益可能隨時間改變,那麼需要改變一下更好的處理方式,使得近期收益賦予比過去很早以前的收益更高的權重,常見的方式是步長固定,但是這樣會導致最後的估算值受第乙個動作的影響而產生偏差,可以用無偏固定步長技巧(練習2.7)
5、基於置信度上界的動作選擇,選擇可能真實值上界最大的動作,有點像a*演算法,上界會隨著使用動作次數的增加而減少,隨著時間流逝而增加。
6、梯度賭博機演算法,引入了偏好函式,偏好函式值越大,動作被選擇的概率越大。這裡利用的數學技巧,將梯度轉化成了數學期望從而可以統計出來。
7、關聯搜尋,介於k臂賭博機和完整強化學習問題之間。
強化學習第二章之Markov決策過程
乙個時間離散化的智慧型體 環境介面可以用這樣的軌道表示 s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3 在進行t個回合後,迴圈將會停止,記為 s0,o0,a0,r1,s1,o1,a1,r2,s2,o2,a2,r3 st s終止 如果環境是可觀測的,那麼ot st,完全觀測軌道...
第二章學習筆記
在c 中,陣列下標從0開始,而不是1.c 不支援陣列的抽象,也不支援對整個陣列的操作。在c 中,物件可以靜態分配 即編譯器在處理程式源 時分配,也可以動態分配 即程式執行時,用執行時刻庫函式來分配。靜態與動態記憶體分配的兩個主要區別是 1 靜態物件是有名字的變數,可以直接對你進行操作。而動態物件是沒...
第二章學習筆記
ansi c 有翻譯和執行兩種環境,且不必在一台機器上,例如交叉編譯器 cross compiler 作業系統也是如此 freestanding environment 翻譯 將源 轉換為可執行機器指令 執行 實際執行 翻譯經過以下階段 形成的目標檔案字尾可能在不同系統下不同,如 o obj cc ...