理解自 周志華《機器學習》
在強化學習的過程中,首先是對強化學習的理解,可用馬爾可夫決策過程(markov decision process, mdp)來理解:
機器處於環境e中,狀態空間為xxx,其中每個狀態x∈x
x∈xx∈
x是機器感知到的環境的描述,機器能採取的動作構成了動作空間a
aa,若某個動作a∈a
a∈aa∈
a作用在當前狀態x
xx上,則潛在的轉移函式p
pp將使得環境從當前狀態按某種概率轉移到另乙個狀態,同時,環境會根據潛在的「獎賞函式r
rr」反饋給機器乙個獎賞。
在上述中,最優策略為:在「健康」狀態時選擇「澆水」、在「溢水」狀態時選擇「不澆水」、在「缺水」狀態時選擇「澆水」、在「凋亡」狀態時選擇」澆水「貨」不澆水「都可以。上述最優策略使根據動作所對應p
pp(概率)來得出最優獎賞的過程。
機器的任務就是通過在環境中不斷城市而學得乙個」策略「(policy)π
\piπ,根據這個策略,在狀態x
xx下就能得知要執行的動作a=π
(x)a=\pi(x)
a=π(x)
。策略有兩種:
確定性策略:表示為π:x強化學習與監督學習的區別若狀態對應示例,動作對應標記,則策略相當於分類器(離散)或者回歸器(連續)。但強化學習中沒有有標記樣本,在某種意義上可看作」具有延遲標記資訊「的監督學習問題。\pi:x
π:x➡a
aa,即乙個狀態x
xx下對應乙個確定的動作a
aa下。
隨機性策略:表示為π:x
\pi:x
π:x×a
aa➡r
rr,其中π(x
,a)\pi(x,a)
π(x,a)
表示狀態x
xx下選擇動作a
aa的概率,並且不同狀態對應的概率之和為1。
馬爾可夫決策過程(四)
最近學習了 mdp,檢視一些資料,本文翻譯了維基百科 有許多地方翻譯的不好,有翻譯錯的地方請多多諒解!歡迎給我留下意見,我會盡快更改!值得注意的變種 值迭代 在值迭代 貝爾曼 1957 年 中,也被稱為 逆向歸納法,陣列是不被使用的,而是當需要時就計算 s 的值。代入 s 的計算結果到 v s 得到...
馬爾可夫決策過程 MDP
但是馬爾科夫過程中不存在動作 action 和獎勵 reward 所有馬爾科夫過程不足以描述圖1所示的強化學習過程。將動作 action 和獎勵 reward 考慮到馬爾科夫過程中去就得到了馬爾科夫決策過程。跟馬爾科夫過程不同的是,馬爾科夫決策過程的狀態轉移概率是包含動作的即 pss a p st ...
work 馬爾可夫決策過程MDP
1.馬爾可夫模型的幾類子模型 大家應該還記得馬爾科夫鏈 markov chain 了解機器學習的也都知道隱馬爾可夫模型 hidden markov model,hmm 它們具有的乙個共同性質就是馬爾可夫性 無後效性 也就是指系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關。馬爾可夫決策過程...