強化學習建模之前必須思考的問題

2022-09-04 22:24:34 字數 659 閱讀 2066

強化學習是智慧型體與環境的互動(探索和試錯),通過互動資訊來感知環境,從而調整自己的行為,選擇出最好的結果。

強化學習更加側重於從互動中進行目標導向的學習。

【將情境對映到行動,以便最大化數值獎賞訊號。通俗理解為對人學習過程的簡單模擬,相當於人做了多次的探索,把最後的勞動成果以狀態值函式、動作狀態對值函式等方式表達出來。利用探索結果選擇合適的動作來完成自己的任務。】

使用收益訊號來形式化目標是強化學習最顯著的目標之一。收益訊號只能用來傳達什麼是你想要的目標,而不是如何實現目標

要研究的是什麼問題,是否涉及與環境的互動?

這個問題是否適合使用強化學習來解決?(本質上屬於一種優化問題)

智慧型體有哪些狀態,每個狀態對應有哪些動作,與環境的互動規律是否可顯式表達?

與環境的互動是為了什麼?要達成什麼目標?對每個狀態的獎勵如何設定?

分別對應 環境狀態、狀態下對應的動作、動作與狀態轉移的關係、對目標的設定及reward衡量。

強化學習的要素包括策略、獎賞訊號、值函式、環境模型。

在目前你考慮的問題中是否對一些情況作了理想化處理?如果不做理想化處理應該選擇什麼方式來解決這個問題?

【個人理解:強化學習很像自己指定規則來探索環境,根據規則嘗試很多次,把最後收斂的結果輸出來指導決策】

前沿強化學習問題

近年來,深度強化學習 drl 受到了大家的廣泛關注,並且在機械人控制 自動駕駛 推薦系統領域等都得到了應用,但drl目前的發展依然受限,本文將從以下幾方面進行分析和解釋。一 樣本效率sample efficiency 學習所需樣本太多,目前常用的方法有 off policy experience r...

學習強化學習之前需要掌握的3種技能

作者 nathan lambert 編譯 vk towards data science 現代強化學習幾乎完全集中在深度強化學習上。深度強化學習中的 深 一詞意味著在演算法的核心方面使用神經網路。神經網路在學習過程中進行一些高維近似。話雖如此,該模型並不需要具有許多層和特徵,這是乙個普遍的誤解,深層...

關於強化學習的一些思考

問1 增強學習的要素是什麼?答1 1 有限狀態集合s 2 有限動作集合a 3 轉移模型t,t s,a,s p s s,a 狀態s採取動作a後,狀態轉移到s 的概率 4 即時獎勵r,r s,a e rt 1 s,a 問2 增強學習的最終結果是什麼?答2 1 最優的policy 2 確定型策略 a s ...