強化學習初入門

2021-10-24 21:40:29 字數 891 閱讀 1704

在網上搜尋了關於強化學習的一些部落格

與有監督學習、無監督學習類似的機器學習演算法

有監督學習是對有標籤的資料進行訓練從而對未知資料做**

強化學習是通過不斷在學習中實踐,在實踐中學習的計算決策過程。通過不斷地與環境互動,經過短期、長期的收益進行優化決策,獲取最大收益的過程。

發現強化學習是乙個狀態不斷轉移的過程,想到了動態規劃。索性查了一下:

動態規劃是通過組合子問題的解來解決原問題

動態規劃應用於子問題重疊的情況,即不同的子問題具有公共的子子問題

動態規劃演算法對每個子子問題只求解一次

動態規劃通常用來求解最優化問題

動態規劃=【最優子結構】+【邊界】+【狀態轉移公式】

agent(人)在某種場景(state)下,做出某種行為(action),得到某種反饋(reward),這就是強化學習的四要素:狀態(state)、動作(action)、策略(policy)、獎勵(reward)。通過與環境的不斷互動,agent可以優化自己做決策(policy)的正確性,以獲取整個互動過程的最大收益。

強化學習入門知識梳理

強化學習入門 的入門

強化學習是機器學習裡面非常重要的乙個派別。智慧型體 agent 會不斷執行一些操作,通過結果來學習,在不同的環境中分別應該採取怎樣的行動。以上幾點,在進入強化學習的複雜世界之前,可能還是有必要了解一下。這是個友好的引子 強化學習的中心思想,就是讓智慧型體在環境裡學習。每個行動會對應各自的獎勵,智慧型...

強化學習入門(一)

在強化學習中,環境狀態的轉移和環境反饋給agent的獎賞是不受agent個體控制的,agent只能通過選擇要執行的動作來影響環境,並通過觀察轉移後的狀態和環境反饋的獎賞值來感知環境,agent的強化學習過程即是通過不斷嘗試各種動作 狀態策略,並通過環境反饋的獎賞不斷調整策略,從而達到在某一環境狀態中...

強化學習 強化學習基礎

為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...