學習強化學習之前需要掌握的3種技能

2021-10-08 06:39:07 字數 1511 閱讀 4782

作者|nathan lambert 編譯|vk **|towards data science

現代強化學習幾乎完全集中在深度強化學習上。深度強化學習中的「深」一詞意味著在演算法的核心方面使用神經網路。神經網路在學習過程中進行一些高維近似。話雖如此,該模型並不需要具有許多層和特徵,這是乙個普遍的誤解,深層暗示了許多層。

幾乎所有的課程和教程都假定你可以微調簡單的神經網路以近似狀態值或建立最終策略。從歷史上看,這些模型對以下所有訓練引數高度敏感:學習率,批量大小,模型引數,資料規範化等等。rl學習中有許多問題,最好的方法是學習監督學習,然後讓automl工具為你完成工作。

從學習一些**開始,理解**所有內容,然後重新構建。這樣做幾次,你會學的很好。監督學習也是一項技能,在接下來的十年中,它將轉化為電腦科學的大多數領域,因此請緊跟其後。

rl是策略空間中的乙個搜尋問題。近年來影響最大的**都是從古老的搜尋問題中得到了嚴重的啟發。讓我們來看看最近在rl最有影響力的三篇**:

迄今為止最主流的強化學習結果是:deepmind掌握了許多遊戲,並進行了大規模強化學習。最近是利用規劃網路來探索的未來行動(

基於模型的rl的研究現狀:基於模型的策略優化(mbpo)。mbpo正在狀態作用空間的附近區域進行搜尋,以獲得更完整的知識。這種模擬的知識就像是一種簡單的探索。(

無模型的rl研究現狀:soft actor-critic (sac)。sac以有效勘探和高峰值效能相結合而聞名。它通過最大化策略上的熵項來實現這一點。作為乙個搜尋問題,直接策略搜尋是rl最關鍵的方面。

你可以在加州大學伯克利分校和麻省理工學院的人工智慧課程學習,試試做一兩個專案挑戰自己。

注意,我並沒有說閱讀學術**,關鍵是要能夠理解它們。

學術領域變化迅速,每天都有**在活躍的twitter社群中公布(說真的,關注幾位著名的研究人員——這對你跟上進度很有幫助)。你需要學習的是把有影響力的**與噪音區分開,把進步與炒作區分開。

它不是關於引用量,儘管我承認引用是乙個很好的區別途徑。你應該關注的是實驗:它們是遵循提出問題、實驗、提出解決方案的軌跡,還是只是對另乙個方法的漸進改進?最好的**尋找的是真理,而不是數字。

最好的研究是尋找最重要的問題,而不管學術討論的浪潮。學會辨別這些訊號,你就能跟上這個領域的步伐,成為未來十年有價值的人才。

我寫了很多關於強化學習的基本技能的教程,之後會發布出來。

什麼是馬爾科夫決策過程?

強化學習的線性代數。

強化學習的基本迭代方法。

sklearn機器學習中文官方文件:

機器學習(3)強化學習 入門

在機器學習的監督學習,無監督學習和強化學習中,我最喜歡強化學習,因為強化學習最接近動物的學習方式,而且業務需求特別強烈。reinforcement learning 增強學習,以下簡稱rl rl背後的乙個核心概念是價值估計,並據此進行相應動作。在繼續深入之前,最好先了解一些術語。在rl中,實施動作的...

強化學習建模之前必須思考的問題

強化學習是智慧型體與環境的互動 探索和試錯 通過互動資訊來感知環境,從而調整自己的行為,選擇出最好的結果。強化學習更加側重於從互動中進行目標導向的學習。將情境對映到行動,以便最大化數值獎賞訊號。通俗理解為對人學習過程的簡單模擬,相當於人做了多次的探索,把最後的勞動成果以狀態值函式 動作狀態對值函式等...

強化學習的學習筆記

感謝李巨集毅教授的講解!sample 函式在訓練過程中對應著 樣本增廣 的作用 其實q learning的思想很簡單,就跟把大象放進冰箱是差不多的,基本的步驟是 觀察環境,得到observation 根據obs查詢q 選擇q值最大的action 執行該動作。其實這兩種演算法的目標不同,導致了結果不同...