作者 | jonathan hui
翻譯 | 史蒂芬•二狗子
校對 | 史蒂芬•二狗子 審核| 莫青悠 整理 | 菠蘿妹
對偶梯度下降是乙個優化帶約束目標函式的常用方法。在強化學習中,該方法可以幫助我們做出更好的決策。
對偶函式 g 是原始優化問題的下限,實際上,若 f 是凸函式,g和f保持強對偶關係,即g函式的最大值等價於優化問題的最小。只要找到使得g最大的 λ ,我們就解決了原始優化問題。
所以,我們隨機指定 λ 為初始值,使用優化方法解決這個無約束的g(λ)。
視覺化
讓我們想象一下這個演算法是如何工作的。
設 y = g(x), z = f(x)。y 和 z 在來自於空間 g ,我們畫出了與y對應的z。我們的解是上面的橙色的點: 空間 g上的最小f同時滿足g(x)= 0。下面的橙色線是拉格朗日函式。它的斜率等於λ,它接觸g的邊界 。
這就是對偶梯度上公升法的工作原理。(ppt)
示例 讓我們通過乙個示例來分析如何求解的。
那麼,拉格朗日乘子是什麼?我們可以使用不同d值的等高線圖視覺化f函式。g是約束函式。
對偶梯度下降可以使用任何優化方法來最小化具有λ值的拉格朗日函式。在軌跡優化問題中,我們一般使用的優化方法為ilqr。然後我們應用梯度上公升來調整λ。通過重複迭代可以找到最優解。
盤點影象分類的竅門
動態程式設計:二項式序列
如何用keras來構建lstm模型,並且調參
一文教你如何用pytorch構建 faster rcnn
等你來譯:
如何在神經nlp處理中引用語義結構
你睡著了嗎?不如起來給你的睡眠分個類吧!
高階dqns:利用深度強化學習玩吃豆人遊戲
深度強化學習新趨勢:谷歌如何把好奇心引入強化學習智慧型體
對偶學習與強化學習
參考 實際上這個對偶遊戲和強化學習的過程比較類似。在強化學習中,我們希望提高我們的策略以最大化長遠的回報,但是沒有標註的樣本告訴我們在某個狀態x哪個動作y是正確的。我們只有通過使用這個策略在不同的狀態下執行不同的動作,觀測該動作帶來的回報,從而改善我們的策略。在以上這個翻譯對偶遊戲中,兩個翻譯模型就...
強化學習 強化學習基礎
為了應對車載網路中通訊環境快速變化的難題,可以使用強化學習進行解決,這裡對強化學習的基礎進行整理。主要的應用場景為車載網路中資源分配問題。本文源自莫煩python 強化學習章節,有需要請查閱原文 20200413補充了一些內容,來自這篇部落格,是李巨集毅的深度強化學習的筆記。強化學習的主要構成有 a...
強化學習基礎
mdps簡單來說就是乙個智慧型體 agent 採取行動 action 從而改變自己的狀態 state 來獲取獎勵 reward 與環境 environment 互動的過程。mdps的策略完全取決於當前狀態,這也是馬爾科夫性質的體現。可以簡單的表示為 m a,ps a,r 回報 return u s0...