強化學習(reinforcement learning, rl),一般也稱作增強學習,和心理學、動物行為的研究等領域有比較久的淵源。
心理學中,「強化」指生物受到外界環境中的某些刺激後,自覺或者不自覺調整應對策略,達到趨利避害。舉個例子。馬戲團訓練動物時(比方說猴子),訓導員首先會發出某種指令(比方說抬一下手,表示希望猴子跳一下),動物接收到這個指令後,如果做出了正確的動作,會得到一定的獎勵(比方說一根香蕉)。這樣的過程重複很多次之後,猴子會學會一種策略,即訓導員每抬一下手,我就跳一下,這樣就可以吃到更多的香蕉;
上面這個例子中,訓練過程就是心理學裡的「強化」現象,強化行為的刺激被稱為強化物(「reinforceor」),猴子策略的改變過程也就是強化學習的過程;
考慮這個問題之前,我們不妨先回憶一下機器學習中另外兩個大類:監督學習和無監督學習(以及它們的折中,半監督學習,或者叫弱監督學習)。
而對於強化學習,研究的是完整的互動過程中的決策問題,具有動態的特點,需要用發展的眼光、長遠得看待問題 →_→就像下象棋一樣,對於某乙個棋局,下一步應該怎樣走,需要以最終贏棋為目的,相比而言,最近幾步的得失反而沒有那麼重要。因此,強化學習領域中涉及的關鍵要素相對較多:
按演算法
初識強化學習,什麼是強化學習?
相信很多人都聽過 機器學習 和 深度學習 但是聽過 強化學習 的人可能沒有那麼多,那麼,什麼是強化學習呢?強化學習是機器學習的乙個子領域,它可以隨著時間的推移自動學習到最優的策略。在我們不斷變化的紛繁複雜的世界裡,從更廣的角度來看,即使是單純的靜態的輸入 輸出型問題也會變成動態的問題。例如,對於乙個...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習系列1 強化學習簡介
2015年10月,alphago在和歐洲冠軍進行的圍棋賽上獲得了5 0的完勝,其後的深度強化學習也隨之火了起來。從本期開始開個新坑,一步步把強化學習的內容捋一遍。強化學習 reinforcement learning 是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程 markov de...