強化學習(reinforcement learning)是機器學習的乙個重要分支,它是用來解決連續決策的問題。強化學習的應用範圍十分廣泛,幾乎包括了所有需要做一系列決策的問題,例如控制電擊讓它執行特定任務,玩棋牌遊戲(alphago)等。它能應用到有序列輸出的問題中,即針對一系列變化的環境狀態,輸出一系列對應的最優的行動,圍棋就是典型的例子。
乙個強化學習包括三個主要的概念,即環境狀態(environment state),行動(action)和獎勵(reward),而強化學習的目標就是獲得最多的累計獎勵。聚類,autoencoder屬於無監督學習,神經網路,貝葉斯分類器,支援向量機這類屬於監督學習,而強化學習介於二者之間,它既不像無監督學習那樣完全沒有學習目標,又不像監督學習那般有非常明確的label,強化學習的目標一般是變化的,不明確的,甚至於可能不存在絕對正確的標籤。
強化學習也已經有幾十年的歷史,直到最近深度學習技術的突破,強化學習才有了較大的進展。google deepmind結合強化學習和深度學習,其推出的alphago結合了策略網路(policy network),估值網路(value network)與蒙特卡洛搜尋樹,實現了具有超高水平的圍棋對戰程式,並戰勝了世界冠軍李世石。這些網路本質上也是神經網路,主要分為策略網路和估值網路兩種。深度強化學習模型對環境沒有特別強的限制,可以很好的推廣到其他環境,因此對強化學習的研究和發展具有非常重大的意義。目前火熱的自動駕駛,也是深度強化學習的應用之一。
接下去我們將會使用tensorflow實現簡單的策略網路和估值網路,中間涉及到的演算法,我們盡可能地簡要的並清晰地表達清楚,敬請期待。
深度強化學習
這是寫給自己看的,大佬請忽略 深度學習和其他機器學習演算法最大的不同在於如何找到特徵,而特徵的抽取過程就是乙個抽象的全過程。以往機器學習演算法的特徵抽取都是對一類問題有解,比如k means等聚類。深度學習抽象模擬了人類神經元傳遞和連線方式,理論上可以解決多種分類問題和 問題,甚至研究未知領域。深度...
深度強化學習
一 簡介 1 深度強化學習出現的原因 傳統的強化學習中當狀態和動作空間是離散且維數不高時可使用q table儲存每個狀態動作對的q值。然而比較複雜的 更加接近實際情況的任務則往往有著很大的狀態空間和連續的動作空間,這種情況下使用q table不現實。同時實現端到端的控制也是要求能處理高維的,如影象 ...
深度強化學習
強化學習 reinforcement learning 與深度學習同屬機器學習的範疇,是其中 一 個重要的分支,主要用來解決連續決策的問題。強化不像無監督學習那樣完全沒有學習目標,也不像監督學習那樣有非常明確的目標 如影象分類問題中的label 強化學習的目標是不明確的,模型只會向著能夠得到更多獎勵...