跟單智慧型體強化學習相比,多智慧型體強化學習的入門似乎更難,想了想覺得有以下幾個方面的原因:
(1) 多智慧型體強化學習研究成果較少,沒有一本經典的系統的書籍來介紹。而單智慧型體強化學習演算法有本神作,即sutton的《reinforcement learning: an introduction》,有這本神作,足矣。(當然對於入門的中國學生來說,我今年出版的中文書籍《深入淺出強化學習:原理入門》可以作為輔助教材來幫助理解。該書後面還會有提起,簡稱為入門書)
(3) 多智慧型體強化學習演算法缺少系統的開源**,而單智慧型體強化學習演算法至少有不少開源**,如莫煩的專欄,葉強的專欄等。
(4) 多智慧型體強化學習所涉及到的理論知識更多,如馬爾科夫決策過程,博弈論等,而單智慧型體強化學習只需要弄懂馬爾科夫決策過程就夠了。
由於這四個原因,多智慧型體強化學習將很多人擋在門外。其實國內從事多智慧型體研究的前輩有很多,如南京大學的高陽老師,清華大學的唐平中老師,天津大學的郝建業老師等等,他們在各自的領域做出很好的研究,但至今尚未看到一本系統介紹多智慧型強化學習入門的書。
本專欄開始的多智慧型體強化學習筆記系列就是在此拋磚引玉,希望能和大家一起來了解和入門多智慧型體強化學習。
1.第乙個問題,什麼是多智慧型體強化學習?
在此,舉乙個非常簡單的例子。如圖1所示為兩個智慧型體將金條搬運回家的例子。在這裡我們稱兩個智慧型體分別是小紅和小藍。該例子的故事應該是這樣的:小紅和小藍是幸福甜蜜的一對夫妻,有一天他們在離家不遠的地方發現一根金條,這根金條需要兩個人一人抬著一邊才能扛回家。假設他們各自的初始位置如圖1所示。要想把金條扛回家,小紅和小藍必須先繞過障礙物,然後每個人到達金條的一邊,扛起金條後,兩人還得繞開家門口的障礙物,這樣才能將金條扛回家。
圖1 兩個智慧型體搬運金條
這是乙個典型的多智慧型體協作的例子。該例子來自於多智慧型體強化學習綜述**《multi-agent reinforcement learning: an overview》,這裡對原文中的例子稍稍改編了一下。
從這個例子中,我們可以思考一下,什麼是多智慧型體強化學習。我覺得多智慧型體強化學習至少應該包括如下幾個要素:
(1) 在多智慧型體系統中至少有兩個智慧型體。
(2) 智慧型體之間存在著一定的關係,如合作關係(如本例),競爭關係(如多人遊戲),或者同時存在競爭與合作的關係。
(3) 每個智慧型體最終所獲得的回報不僅僅與自身的動作有關係,還跟對方的動作有關係。如本例中每個智慧型體要想獲得回報,必須是金條被兩個智慧型體一起搬回家。
在單智慧型體強化學習中,我們用馬爾科夫決策過程來描述智慧型體的學習(見「入門書」),那麼在多智慧型體強化學習中,如何描述多智慧型體的學習呢?
第二個問題:如何描述多智慧型體系統的學習?
單智慧型體強化學習用馬爾科夫決策過程來描述,而多智慧型體強化學習需要用馬爾科夫博弈來描述。
馬爾科夫博弈(markov game)又稱為隨機博弈(stochastic game)。這個概念似乎很抽象,初次遇到你是不是又要撓頭了?其實這個概念很容易理解,我們還是像介紹單智慧型體強化學習的方法介紹多智慧型體:即理解概念。
我們將馬爾科夫博弈拆分成兩個詞:馬爾科夫和博弈。
首先,馬爾科夫是指多智慧型體系統的狀態符合馬爾科夫性,即下一時刻的狀態只與當前時刻有關,與前面的時刻沒有直接關係。
其次:博弈,描述的是多智慧型體之間的關係。
所以馬爾科夫博弈這個詞完全描述了乙個多智慧型體系統。用更精確的數學語言進行形式化描述則為:
隨機博弈(又稱為馬爾科夫博弈),可用乙個元組
來描述。其中:
,其中時,採取聯合行為
有同學肯定會問,之前您說馬爾科夫博弈描述了多智慧型體系統的兩個方面:多智慧型體之間的狀態符合馬爾科夫性,多智慧型體之間的關係。但是形式化表述怎麼沒有體現出來這兩個性質呢?
我的回答是,其實形式化表述已經描述了這兩個屬性。我們回過頭來仔細看馬爾科夫博弈的形式化描述。
(1)狀態轉移概率
(2)回報函式則完全描述了多智慧型體之間的關係。需要注意的是這裡的回報函式是每個智慧型體的回報函式。當每個智慧型體的回報函式一致時,則表示智慧型體之間是合作關係;當回報函式相反時,則表示智慧型體之間是競爭關係,當回報函式介於兩者之間,則是混合關係。
有了形式化描述,我們再看一看多智慧型體和單智慧型體之間的區別。
最重要的區別是多智慧型體的狀態轉移和回報都是建立在聯合動作的條件下。
圖2 多智慧型強化學習系統
如圖2所示,多智慧型體同時動作,在聯合動作下,整個系統才會轉移,才能得到立即回報。圖2來自文獻」game theory and multi-agent reinforcement learning」。
今天的筆記先更新到這裡,下次筆記預告:多智慧型強化學習演算法的基本框架,經典演算法。
多智慧型體強化學習環境
環境是強化學習的核心要素之一。不同的環境一直是研究新的強化學習演算法的動力。但是讓智慧型體和真實環境互動的代價是很大的,不但費時費力,甚至有的時候根本不可能進行互動。現在的多智慧型體強化學習和強化學習早期境遇很像,只有較少的環境可用。另外在不同的智慧型體之間分享資訊的設定範圍可能很廣,有些環境涉及通...
多智慧型體強化學習系列 開貳錘 ECKai
多智慧型體強化學習入門 一 基礎知識與博弈 多智慧型體強化學習入門 二 基礎演算法 minimax q,nashq,ffq,wolf phc 多智慧型體強化學習入門 三 矩陣博弈中的分布式學習演算法 多智慧型體強化學習入門 四 maddpg演算法 多智慧型體強化學習入門 五 qmix演算法分析 多智...
深度強化學習day01初探強化學習
因此,強化學習實際上是智慧型體在與環境進行互動的過程中,學會最佳決策序列。先驗知識與標註資料 強化學習不需要像監督學習那樣依賴先驗知識資料,它通過自我博弈的方式產生更多的標準資料。強化學習可以利用較少的訓練資訊,讓系統自主學習補充更多資訊使整個系統不受標註資料和先驗知識的限制。拿圍棋遊戲來說,圍棋的...