機器學習第16章(強化學習)

2021-10-09 23:03:42 字數 380 閱讀 4951

策略的優劣取決於長期執行這一策略後所得到的累積獎賞,在強化學習任務中,學習的目的就是要找到能使長期累積獎賞最大化的策略。

強化學習從某種意義上可以看做具有「延遲標記資訊」的監督學習問題。

僅探索法能很好的估計每個搖臂的獎賞,卻會失去很多選擇最優搖臂的機會;僅利用法沒有很好地估計搖臂期望獎賞,很可能經常選不到最優搖臂。

softmax演算法基於當前已知的搖臂平均獎賞來對探索和利用進行折中,若各搖臂的平均獎賞相當,則選取各搖臂的概率也相當;若某些搖臂的平均獎賞明顯高於其他搖臂,則它們被選取的概率也明顯更高。

在已知模型的環境中進行學習稱為有模型學習model-based learning。

若學習演算法不依賴於環境建模,則稱為免模型學習model-free learning。

機器學習 強化學習

在環境中狀態的轉移 獎賞的返回是不受機器控制的,機器只能通過選擇要執行的動作來影響環境,也只能通過觀察轉移後的狀態和返回的獎賞來感知環境。離散狀態空間 離散動作空間 第 k 個搖臂第 n次嘗試之後平均獎賞 q0 k 0 qn k 1n n 1 qn 1 k vn qn k q n 1 k 1 n v...

機器學習 強化學習

目的 使乙個3關節 髖骨 膝蓋 腳踝 小人學會沿直線走路。方法 1 對於小人建模 2 使用3層人工神經網路訓練小人走路 3 對於每次訓練結果評估,獎懲神經網路調整權重。演示了乙個使用深度強化學習 deep deterministicpolicy gradient,ddpg 演算法控制仿人機械人運動的...

機器學習 強化學習

1 強化學習概述 機器學習方法 有監督學習 資料集中的樣本帶有標籤,有明確目標 回歸和分類 無監督學習 資料集中的樣本沒有標籤,沒有明確目標 聚類 降維 排序 密度估計 關聯規則挖掘 強化學習 智慧型決策的過程,通過過程模擬和觀察來不斷學習 提高決策能力,最接近人類學習模式的機器學習方法 例如 al...