簡述馬爾科夫決策過程(上)

2021-09-27 10:55:23 字數 901 閱讀 8043

在人工智慧中,大家可能知道兩種技術,第一是機器演算法,第二是深度學習。而在深度學習中有強化學習和突破學習這兩種技術。這兩種技術給深度學習帶來了很大的幫助。而強化學習中有乙個技術,那就是馬爾科夫決策過程,那麼什麼是馬爾科夫決策過程呢?下面我們就給大家介紹一下這個內容。

初聽馬爾科夫決策過程,相信大家也是一頭霧水的,很多人不知道什麼是馬爾科夫決策過程,其實馬爾科夫決策過程就是基於馬爾科夫論的隨機動態系統的最優決策過程。它是馬爾科夫過程與確定性的動態規劃相結合的產物,故又稱馬爾科夫型隨機動態規劃,屬於運籌學中數學規劃的乙個分支。馬爾科夫決策過程具有馬爾可夫性,這個馬爾科夫性就是無後效性,及系統的下個狀態只與當前狀態資訊有關,與更早的狀態無關,但不同的是馬爾科夫決策過程考慮了動作,即系統下個狀態不僅和當前的狀態有關,也和當前採取的動作有關。

那麼馬爾科夫決策要求是什麼呢?馬爾科夫決策的要求具體體現在三點,第一點就是能夠檢測到理想的狀態。第二點就是可以進行多次嘗試。第三點就是系統的下個狀態只與當前狀態資訊有關,而與更早之前的狀態無關。在決策過程中還和當前採取的動作有關。

那麼馬爾科夫決策過程的定義是什麼呢?其實馬爾科夫決策過程可以用乙個五元組(s, a, p(:,:), r(:,:), γ)來描述,其中:s是一組有限的狀態集(state);a是一組有限的動作集(action); pa(s,s')=pr(st+1=s'|st=s,at=a)表示在時間t狀態s採取動作a可以在時間t+1轉換到狀態s'的概率;ra(s,s')表示通過動作a,狀態s轉換到 s'所帶來的及時收益或回報(reword);γ是折扣因子,表示未來收益和當前收益之前的差別,意味著當下的 reward比未來反饋的reward更重要。需要提醒大家的是,馬爾可夫決策過程並不要求s或者a是有限的,但基礎的演算法中假設它們是有限的。、

簡述馬爾科夫決策過程(上)

在人工智慧中,大家可能知道兩種技術,第一是機器演算法,第二是深度學習。而在深度學習中有強化學習和突破學習這兩種技術。這兩種技術給深度學習帶來了很大的幫助。而強化學習中有乙個技術,那就是馬爾科夫決策過程,那麼什麼是馬爾科夫決策過程呢?下面我們就給大家介紹一下這個內容。初聽馬爾科夫決策過程,相信大家也是...

馬爾科夫決策過程

1.能夠檢測到理想狀態 2.可以多次嘗試採取不同動作 3.系統的下乙個狀態只與當前狀態有關,而與之前的狀態無關。在決策過程中還和當前採取的動作有關。s 表示狀態集 a 表示一組動作 p 表示狀態轉移概率。psa表示在當前狀態s下,執行動作a,轉移到其他狀態的概率。r 獎勵還是。表示agent採取某個...

馬爾科夫過程,馬爾科夫獎勵過程和馬爾科夫決策過程

馬爾科夫決策過程是強化學習中的乙個基本框架,用來表示agent與環境的互動過程 agent觀測得到環境的當前狀態之後,採取動作,環境進入下乙個狀態,agent又得到下乙個環境狀態的資訊,形成乙個迴圈迴路。在理解馬爾科夫決策過程之前,首先要理解馬爾科夫 馬爾科夫獎勵過程。1.馬爾科夫過程 滿足馬爾科夫...